ف العربي والتقنية 


في حوسية RIT‏ بيه 


د. أمجد أبوجبارة 
أدعس Ola Aaa!‏ 


د. يحيى محمد الحاج 


تأليف : 


: لسر‎ yu 


د. يوسف سالم عيسى العريان 


$4 


= 


© مركز الملك عبحلتك بن عبدالعزيز vugal‏ 
4 لخدمة اللغة العربية 
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بدا 


أ. مأمون صبحي الحطاب 
د. اريك آټ ويل 
أ. عبدالله يحيى الفيفي 
«ai‏ سامح محمد عويضة 


yall 


£ 


ao‏ لو 


ية 


(12) 


الحرف العربي والة 


Li 
1 
Li 


: أبحاث في دوسبة العربية 


سلسلة (مباحث لغوية) : 
po‏ مركز الملك عبدالله بن عبدالعزيز 
الدولي تخدمة اللفة الفربية هذه السلسلة 
ضمن خطة عمل مقسمة إلى مراحل: تشمل 
مرحلتها الأولى ثلاثين عنواناء لموضوعات 
علمية Gly‏ المركز — بعد الدراسة — حاجة 
المكتبة اللغوية العربية إليها؛ أو إلى بدء النشاط 
البحثي فيهاء ويهدف من وراء ذلك إلى تنشيط 
العمل 2 المجالات التي تَتَبّه إليها هذه 
السلسلة. سواء أكان العمل علميا بحثياء أم 
عمليا تنفيذياء ويد عو المركز الباحثين كافة من 
أنحاء العالم إلى المساهمة 2 هذه السلسة. 
وتودٌ الأمانة العامة أن تشيد بجهد السادة 
المؤلفين؛ وجهد محرر الكثاب» على ما تفضلوا 
به من التزام علمي لا يستغرب من مثلهم. 

والشكر والتقدير الوافر لمعالي وزير التعليم 
المشرف العام على المركز i‏ الذي يحث على كل 
ها :من cuts Gla‏ الهوية: اللغوية الغزبية: 
وتمتينهاء Gay‏ رؤية استشرافية محققة 
لتوجيهات قيادتنا الحكيمة. 

والدعوة موجهة لجميع المختصين والمهتمين 
بتكثيف الجهود نحو الصعود بلغتنا العربية. 
وتحقيق وجودها السامي # مجالات الحياة. 


المملكة العربية السعودية - الرياض 
مركز الملك عبداللّه بن عبد العزيز الدولي لخدمة 
اللغة العربية 
هاتف : ۰۰۹11۱۱۲۵۸۱۰۸۲ - ناسوخ 
SATU VYOAY ETA‏ 


VWEVY الرياض‎ 116٠٠ : ص.ب‎ 


www.kaica.org.sa 


ep 
واد‎ 
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د. يوسف سالم عيسى العريات 


e 
بن عبدالعزيز الدولي‎ luc مركز الملك‎ N 
. : ^ P 
King Abdullah Bin Abdulaziz Int'l Center for LAN ١ 
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© مركز الملك عبد الله بن عبد العزيز الدولى لخدمة اللغة العربية, 457١ه‏ 
فهرسة مكتبة الملك فهد الوطنية أثناء النشر 

مركز الملك عبد اللّه بن عبد العزيز الدولى لخدمة اللغة العربية 

الحرف العربى والتقنية . / مركز الملك عبد الله بن عبد العزيز الدولى لخدمة اللغة 
ار BV pelt,‏ 

YAA‏ صن Y£ X W‏ سم 

AVATTA TEA. A ST: ردمك‎ 


-١‏ الابجدية العربية - تاريخ -Y‏ الخط العربي - تاريخ 
Y‏ 7 الحواسيب أ.العنوان 
YEYA/YAV- £YY, Y ($932‏ 
حقوق 1 لطبع وا لنشر محفوظة 
الطبعة الأولى 


aye Vo / AMEYS 


سلسلة من الإصدارات التي تعالج قضايا لغوية متنوعة 


مدير المشروع 1 
أ. خالد بن أحمد الرفاعي 


إشراف : 
د.عبد اللّه بن صالح الوشمي 


NS = 


A hes WE 
M mos 


/ 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


كلمة المركز 


يجتهد مركز الملك عبدالله بن عبد العزيز الدولي لخدمة اللفة العربية 
2 العمل 2 مجالات متعددة تحقق تعميق الوعي اللغوي على المستويات المختلفة 
(الاجتماعية والعلمية/ الأهلية والرسمية) ؛ وذلك للسمو باللغة العربيةء وترسيخ 
منافستها للغات الحضارية 2 tll‏ وتعميق قيادتها الدينية والتاريخية لشعوب 
شتى # أنحاء المعمورة. 


asl Jae IE Liane s ud المركو ةمجان‎ dads el Td tole tly 
discs cella Mosca d ose [aga alia معطي‎ a aay اا‎ 
استكتاب مجموعة كبيرة من الباحثين ؛ لتأليف عدد متنوع من الإصدارات النوعية‎ 
المقروءة التي تعالج عنوانات يقتنصها المركز. ويلفت الانتباه إليهاء ويعلن من‎ 
خلالها الفرص الممكنة لخدمة اللغة العربية 2 المجالات المختلفة امنيا الاك‎ 
الحاجات التي يلمس المركز تطلع المكتبة اللغوية العربية إليهاء ولافتاً الأنظار إلى‎ 
MAU ola فد كا‎ alee وا فا ت ا ب‎ oto الغرية ضهنا‎ al 
ويسعد المركز بأن استقطب 2 المرحلة الأولى من هذا المشروع ما يربو على مئتي‎ 
eia Lilley LaSalle s م‎ a6 LE وشا دات‎ ct 
مسارات البحث الرئيسية والفرعية؛ ومنفتحا على كل ما من شأنه خدمة اللغة‎ 
العربية بجميع الوسائل والأطر.‎ 

dalajat واخدامخ الكذب التي درت طمن‎ c LE هدا‎ Lass 
المركز من‎ oly LA لغوية) يحتوي عددا من الأبحات لأساتذة مرموقين؛ استجابوا‎ 
الحاجة إلى التأليف تحت هذا العنوان: وبادروا إلى ذلك مشكورين.‎ 


وتودٌ الأمانة العامة أن تشيد بجهد السادة المؤلفين: وجهد محرر الكتاب» 
ومدير هذا المشروع العلمي على ما تفضلوا به من التزام علمي لا يستغرب من 
مثلهم» وقد ترك المركز للمحرر مساحة واسعة من الحرية 2 اختيار الباحثين 
ALS a na;‏ فة anas t7 38 41 a ag aid‏ إلى aai‏ أقصى ها يمكن 
تحقيقه من الإفادة العلمية؛ مع الأخذ بالاعتبار أن الآراء الواردة 2 البحوث لا تمثل 
رآي المركز بالضرورة: ولكنها من جملة الآراء العلمية التي يسعد المركز بإتاحتها 
للمجتمع العلمي وللمعنيين بالشأن اللفوي لتداول الرأي i‏ وتعميق النظرء ونلفت 
انتباه القارئ الكريم إلى أن ترتيب أسماء المؤلفين على الغلاف موافق لترتيب 
LS s giles‏ وهي خاضعة للرؤية المنهجية التي تفضل المحرر - مشكورا- 
باقتراح خطتها. 


والشكر والتقدير الوافر لمعالي وزير التعليم المشرف العام على (S AM‏ 
الذي يحث على كل ما من شأنه تثبيت الهوية اللفوية Au pall‏ وتمتينهاء وفق رؤية 
ستشرافية محققة لتوجيهات قيادتنا الحكيمةء ويمتد الشكر لمعالي AGL‏ وللسادة 
أعضاء مجلس الأمناء نظير الدعم والتسديد لأعمال المركز. 

والدعوة موجهة لجميع المختصين والمهتمين بتكثيف الجهود نحو النهوض 
بلغتنا العربيةء وتحقيق وجودها السامي 2 مجالات الحياة. 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


المقدمة 


إن الحمد cad‏ نحمده» ونستعينه» ونستغفرهء ونعوذ بالله من شرور أنفسناء 
ومن سيئات أعمالناء من يهده الله فلا مضل Al‏ ومن يضلل فلا هادي Al‏ وأشهد 
E NER‏ الا الله وة لاشريك له agi‏ أن مهدا عيذ ورس Lal‏ سد 


فقد أيد alll‏ -تبارك وتعالى- رسله بآیات» ثم اصطفى لخاتمهم منها كلامه 
s adi‏ اة و S e IP) oa ae ace assa‏ هلم ai dta‏ 
(OLGI «le . ELNI‏ وكانت G52 olal)‏ مُبين). و هذا ما يكفي للإشارة إلى 
فضل البيان عموما واللسان العربي Tapias‏ 


ولعلوم الحاسب فضلها المستمد من كون الحاسب آلة تمد وتقوي ما ميز اللّه 
به بني آدم من عقل؛ كما أن المقراب امتداد لقوة الإبصار. لذاء فيمكننا القول بأن 
نسبة رقي الحاسبات على غيرها من الآلات كنسبة رقي العقل على الجسد. ثم إن 
برمجة هذه الآلات - التي ابتدأت ببعض أعمال الإخوة بني موسى- تحتاج إلى لغات 
خاصة بهاء مما يعود عليها بما أسلفنا من فضل البيان واللسان. 


يتناول كتابنا هذا الحاسب 2 خدمة اللغة العربية. وهو هيكله يشبه 
الشجرة: إذ يبدا بثلاثة بحوث 2 البنى التحتية: أحدها يناقش الأساس التقليدي 
لبرامج حوسبة AAU!‏ وهو تمثيل اللغة العربية 4 الحاسوب. والآخران للمدونات 
bull ae ia daa‏ 8 هيا bat adici‏ قم فسن إلى يا نامي 
الجذع -وهي الأدوات التي تحمل غيرها من التطبيقات المثمرة- فجاء ببحثين 
استقصى أحدهما التقنيات التقليدية والإحصائية لمعالجة اللفات الطبيعية 


Á -‏ و 
وتخصص الاخر .2 طريقة لتعلم التشكيل اليا. ثم ختم الكتاب بفرعين مثمرين 


استقصيا تطبيقات الترجمة الآلية من العربية وإليها وتطبيقات التعرف الآلي على 
قراءة القرآن الكريم. 

وكان حرصنا منصبا 2 هذا الكتاب العربي على المقدمات الاستقصائية لأنه 
باكورة  LÀ Lala‏ فناسبه التمهيد لما بعده. كما حرصنا أن يكتب موضوعاته نخبة 
من أساتذة الجامعات ومدراء الشركات المتخصصة 2 المملكة العربية السعودية 
والمملكة الأردنية الهاشمية والمملكة المتحدة والولايات المتحدة الأمريكية. وإننا 
لنرجو أن تستمر هذه السلسلة المباركة وأن daas‏ من هذا الكتاب وما بعده باحثو 


اللسانيات وباحثو الحاسوب وغيرهم. واللّه ولي ذلك والمبارك فيه. 


المحرر: 
د.يوسف بن سالم العريان 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


حول نظام تمثيل الحرف العربي 


© مأمون صبحي الحطاب‎ A 
m.hattab@arabtext.ws 


دار حوسبة النص العربي 
باحث 2 حوسبة اللغة العربيةء قام بتطوير عدد من الأنظمة المحوسبة 2 مجالات: الصرف 
(grit‏ ومحركات البحث العربية» وتطويع التقنية لخدمة ذوي الاحتياجات الخاصة العرب. 


وهو عضو مؤسس لجمعية حوسبة اللغة العربية وإثراء المحتوى العربي على شبكة الإنترنت. 


q 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


.١‏ المقدمة 
مرحلة المعالجةء تتبعهما مرحلة إخراج النتائج. ولم تحقق برامج التحليل اللغوي 
uns od ases‏ نض beige usto sia cai did ui‏ 

Adel AatLa!l aal pag GE ISS alas, 
لقد أدت اللغة العربية دورا بارزا 4 نقل الحضارة الإنسانية واستيعابها لعدة‎ 
قرون دونما انقطاع. ويعبر عن هذا الدور الحضاري مؤسس علم اللغة الحديث‎ 

إدوارد سابير VAY) 244% Edward Sapir‏ حيث يقول: 


"إن eodeni‏ الف كان لما دون ركس ے حمل ties ka Lust Sls‏ 
الصينية القديمة والسنسيكريتية والعربية واليونانية واللاتينية . 


والملاحظ أن اللغة العربية هي الوحيدة من بين هذه اللغات الخمس التي ما 
زالت تؤدي دورها دون انقطاع. وقد شهد للعربية بآنها لغة علمية- العالم اللغوي 
رونالد لانفيكر (YA VY : VAY ) Ronald Langacker‏ الذي يرى أن طبيعة الكلمات 
المستعارة من لغة ما تعكس مدى تأثيرها 2 اللغة المستعيرة:؛ وأن نسبة كبيرة من 
الكلمات العربية الداخلة 2 الإنجليزية هي كلمات علمية Alchemy 5 Zero (fis‏ و 
8 وغيرها كثير. وهي كلمات دخلت الإنجليزية عن طريق الإسبانية. ويذكر 
أن الدكتور وجيه حمد عبد الرحمن قد أثبت وجود ٠٠٠١‏ جذر عربي S‏ معجم 


أوكسفورد الإنجليزي .)١(‏ 


Y 


أما المستشرقة الألمانية ريجارد هونيكه فتقول 2 كتابها الشهير شمس العرب 
تسطع على الغرب" (VAIN YET)‏ : إنه قبل ستمئة عام كان لكلية الطب الباريسية 
أصغر مكتبة 2 العالمء لا تحتوي إلا على مؤلف cao E‏ لعربي عظيم . وكان هذا 
الأثر العظيم هو المرجع الأساسي لمدة تزيد عن أربعمئة عام بعد ذلك التاريخ دون 
أن يزاحمه مزاحم» أو تؤثر فيه أو .2 مكانته مخطوطة من المخطوطات الهزيلة التي 
دأب 2 صياغتها كهنة الأديرة قاطبة. وهذا العمل الجبار خطته يد الرازي (أبو 
بكر محمد بن زكريا). وقد اعترف الباريسيون بقيمة هذا الكنز العظيم وبفضل 
صاحبه عليهم وعلى الطب إجمالا فأقاموا له نصبا 2 باحة القاعة الكبيرة ب 
مدرسة الطب لديهم» وعلقوا صورته 4# شارع سان جيرمان. 
بالرغم مما تقدم من حقائق علمية ثابتة فقد تعرضت اللغة العربية لحملات 
مغرضة تفتقر إلى الموضوعية وتتناقض مع حقائق ale‏ اللغة الحديث. وقد انصب 
الهجوم على عدة محاور منها: 
.١‏ الادعاء بعدم صلاحية الخط العربي والدعوة لتلتينه. 
Y‏ الادعاء بأن ay pall‏ لغة دينية - ag gall‏ الكهنوتي للدين - وليست لغة 
LY‏ الادعاء بجمود العربية الفصحى وضرورة السماح بالتغيير اللغوي المتمثل 
2 العاميات والدعوة لإحلالها محل الفصحى. 
؛. القول بافتقار العربية للعدد الكل من اللواصق ( السوابق واللواحق) 
لترجمة ما يعادلها 4 اللغات الأوروبية الحديثة التي تنقل العربية عنها 
-2 القرن العشرين. 


۲. تاريخ تطور نظام كتابة العربية 
عرفت العرب الكتابة 2 جاهليتها -قبل الإسلام- واعتبرتها شرطا -2 كمال 
الرجل العربي» وتعود معرفتهم بالكتابة إلى اتصالهم بالأمم المتحضرة # بلاد 


۱۲ 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


اليمن وتخوم الشام» Lisle‏ الأنباط -مثلا- ممالكهم على أطراف بلاد الشام 2 
الناحية الشمالية الغربية من شبه الجزيرة العربية TM)‏ م (a Y T‏ .واتخذت 
البتراء alu‏ عاصمة لهاء وكانت لهم صلات qr uel VL‏ فتأثروا بهم وتحدثوا 
لغتهم» واستنبطوا لأنفسهم خطا خاصا بهم عرف بالخط النبطي» اشتق منه عرب 
الشمال الخط الأنباري والخط الحيريء أو الخط المدور والخط المثلث. 


ونجد عند العودة إلى تاريخ الكتابة العربية أنها مرت بثلاث مراحل (Y)‏ هي: 
مرحلة النشأة التي تمتد حتى ظهور الإسلام؛ ومرحلة الاستخدام الواسع وتمتد 
حتى بعيد منتصف القرن الثاني الهجري ثم مرحلة تقعيد الإملاء. 

فقد شجع الإسلام على تعلم الكتابة» وسلك ‏ ذلك وسائل مختلفةء حتى 
أن رسول all‏ صلى الله عليه وسلم اشترط لفكاك الأسير من قريش B‏ بدر تعليم 
عشرة من صبيان المدينة الكتابة فراجت الكتابة 2 عصره صلى all‏ عليه وسلم» 
حتى بلغ عدد كتاب الوحي أكثر من أربعين كاتبا. 

وتعد الحجاز أول بلاد العرب معرفة للكتابةء وكانت قريش # aS‏ وثقيف 2 
الطائف أكثر القبائل شهرة Les‏ ومن أبنائها اختير كتاب صحف أبي بكر الصديق 
رضي الله عنه» وكان عمر بن الخطاب رضي الله عنه يقول كما روى pile‏ بن 
سمرة: لا يملين ‏ مصاحفنا هذه إلا غلمان ثقيف. وعندما جمع عثمان بن عفان 
رضي dic alll‏ مصاحفه قال: اجعلوا المملي من هذيلء والكاتب من ثقيف. (Y)‏ 


ثم cal‏ مرحلة التقعيد» وهي المرحلة التي تأثرت بالقواعد الصرفية والنحوية, 
مما جعل الاملاء العربي» 2 مواضع كثيرة؛ يشير إلى قواعد النحويين أكثر مما 
يصف واقعا كتابيا ملموسا. (Y)‏ حتى رأى بعض الباحثين المعاصرين )6( أن اللغة 
العربية مكونة من ثلاثة أنظمة: هي: النظام الصوتي والنظام a‏ 2 والنظام 
النحويء وقائمة من الكلمات التي لا تنتظم 2 جهاز واحد. وأن هذه الأنظمة تكون 


f 


معينا صامتاء فإذا أردنا أن نتكلم أو أن نكتب؛ نظرنا 2 هذا المعين الصامت 
فوضعنا محتوياته 4# حالة عمل وحركة؛ فأخذنا منه الكلمات ورصفناها على 
شروط الأنظمة؛ أي بحسب قواعد اللغة. 


كان الإملائيون العرب أنفسهم نحويين وصرفيين» لذلك لم يفصلوا -عند 
وضعهم لقواعد الاملاء- الكتابة عن اللغةء ولم يفصلوا قواعد الاملاء عن قواعد 
اللغة:؛ بل إنهم أقحموا قواعد اللغة 2 الكتابة والإملاءء مما جعل الاملاء العربي 
— 2 مواضع كثيرة- يشير إلى قواعد النحويين أكثر مما يصف واقعا كتابيا 


Y‏ . تمثيل الكتابة لصوت الكلمة 


حاول الرسم الكتابي منذ نشأته أن يجاري المنطوق 2 وظيفته وأن يكون 
مطابقا لأصوات الكلام؛ فتطور 2 سبيل ذلك من الصوري إلى المقطعي ثم إلى 
الأبجديء واتخذ رموزا مميزة للحروف والحركات. وابتدع علامات خاصة لتمثيل 
الظواهر الصوتية الأخرى وتقريب المكتوب من المنطوق. ومما ابتدعته العربية 2 
هذا الشأن الشدة والمدة وعلامات الحركات والسكون والنقط الذي يختلف عددًا 
ومكانًا وأدخل - لما شاع اللحن إثر دخول غير العرب .2 الإسلام- على الكتابة 
العربية ما يطورها مثل: 

أ. النقط 

وتجمع معظم المصادر على أن أول من أدخل النقط ga‏ الم اللغة المشهور 
أبو الأسود الدؤلي )2-53 عام (PTAA‏ وذلك لما لوحظ من لحن .2 تلاوة كتاب alil‏ 
العزيز. 

ب. الأعجام 


ويعرّف ابن جني الإعجام بأنه إزالة العجمة. وهو مشتق من "أعجم" أي أزال 


1١: 
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ت. الشكل 

وأول من أدخل الحركات القصيرة الضمة والفتحة والكسرة هو الخليل بن 
أحمد الفراهيدي (المتوِك عام ١۷۸م).‏ كما أدخل السكون )7( الذي يعني غياب 
الحركة. 

وبإدخال هذه الاصلاحات الضرورية على نظام كتابة العربية أصبح ذلك 
a‏ ب ما يكون إلى pu‏ الكتابة الصوتي (Phonetic e)‏ الذي 


أولا : التناظر بين الحروف الصائتة تة والأصوات الصائتة da a9)‏ هنا أن كل 


حرف يمثل صوتا واحدا لا غير والعكس صحيح): 


لد ا كاد ندا 

[ & | wm | my | 

ETE LS Le — 

[Lu os | جب‎ | | 

Lu [oh | ue [mar ١ 
|— e d 


/xulu:d/ 


| س | p oue‏ | سا 
كح كن PES‏ 
mme O ME‏ كك ال ل ea‏ 
mee |‏ | ضيب | [om‏ لض | 
٠ ٠١‏ ا د ا كك رك كك 


os | z | æ | — Zu — — 
| og | / | œ | fm ——— 


EMEN MEER ا‎ 


/fi:l/ 


/?samae/ 


à 5x Rast — 
pf | f. | — c | ti | 


وهكذا يتضح أن درجة كفاءة الكتابة العربية تضاهي أحدث وأدق ما توصل 
إليه علماء اللفة والأصوات 2 الأوساط الغربية ألا وهو "نظام الكتابة الصوتية" 
الذي وضع للتغلب على الصعوبات المستعصية التي تواجهها أنظمة الكتابة لمعظم 
اللغات الحديثة التي تعرصت لحدوث بون شاسع بين نظامي الكتابة والنطق. 
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2 المقابل نجد اللغة الإنجليزية أبعد كثيرا عن نظام الكتابة الأمثل وذلك 
للأسباب الآتية: 
-١‏ تمثيل بعض الحروف لأكثر من صوت. ففي اللغة الإنجليزية -وهي اللغة 
العالمية الأولى 2 عالمنا المعاصر- نجد ما يأتي: 
saga.‏ ادرف A Wa Nds ve Vs Nee aa A‏ 
Mi‏ كما 2 الكلمات village . father. ball. fat‏ و Caesar‏ على التوالي. 
بيرم ooi‏ "8" إن AA Mais My es lo ABN‏ 
كما -2 الكلمات pressure . measure . dishes « cats . bags‏ و island‏ على التوالي. 
وينطبق هذا على كثير من الصوامت والصوائت الإنجليزية. 
4 الإنجليزية fies‏ على النحو التالي وبالحروف التالية : 
e.eo.e.ey.ie. ei. ea ee‏ 
وذلك كما 2 people . crises « key « thief « receive « tea « see cL 4I‏ * 
Caesar‏ على التوالي. 
-Y‏ توجد حروف صامتة 2 معظم الكلمات وهوما يضاعف صعوية القراءة 


ET gets Lay ررم‎ LAs ماعطو وان‎ jl 2 aS 
ذلك:‎ 


V 


MENEK BET ل‎ 


وقد نجم عن هذه العوامل وأمثالها بون شاسع بين نظامي الكتابة والنطق .2 
لغة العلم والحضارة 2 يومنا هذا مما حدا بالبرلمان البريطاني لطرح هذه المسالة 
المؤرقة على بساط البحث لإعادة التوازن بين النظامين. 


إن الذي أدى إلى حدوث مثل هذا الخلل الجسيم 2 النظام اللغوي الإنجليزي 
هوتغير النطق دون أن يواكبه تغير 2 نظام الكتابة. حتى إن الكاتب الإيرلندي 
الشهير جورج برناردشو George Bernard Shaw‏ يوضح حجم المفارقة إذ يقول 
او ol fish langes ghoti dels‏ اها عن ul Lag um‏ نالا صبوات 
الملأخوذةمن الكلمات أدناه: 


Y^ 
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laugh = f  \laif\ 
women = i \wimin\ 
nation = | \neioan\ 


اللغة العربية» ومع ذلك فإن التقدم 2 نظم معالجة اللغة الإنجليزية بالحاسوب لم 


؟. بعض JS Lite‏ تمثيل الكتابة العربية 

كان الإملائيون العرب أنفسهم نحويين وصرفيين -كما ذكرنا سابقا- فلم 
يفصلواء عند وضعهم لقواعد الاملاءء الكتابة عن ARM‏ ولم يفصلوا قواعد 
الاملاء عن قواعد اللغة, بل أقحموا قواعد اللغة 2 الكتابة والاملاءء مما جعل 
الاملاء العربي؛ 2 مواضع كثيرةء يشير إلى قواعد النحويين أكثر مما يصف واقعا 
كتابيا ملموسا. )0( وجاء هذا التقعيد على حساب دقة التمثيل الصوتي للمنطوق 
وأدى إلى قصور فيهء كما جعل قواعد الإملاء عرضة لاختلاف وجهات نظر العلماء 
LS‏ لاختلاف وجهات نظرهم 2 الصرف والنحو. 

ولم يكن واقع التطبيق بهذه المعيارية الصارمةء فاعترى الرسم الكتابي العربي 
مشكلات متعددة» وأخطاء شائعة عند الاستعمال. فمن المشكلات البارزة غياب 
الحركات وعدم اندغامها ج بنية الكلمة العربية المكتوبة. وهي تزود من الذاكرة 
edi‏ اترو eus coa di acea‏ السؤاق cell‏ الذي يجين 
المعنى. ad,‏ الكلمة ‏ النصوص غير المشكولة كما تفهم من السياق وكما يحددها 
الحس اللغوي مما يصعب للحاسوب معها. 

إن النظام الكتابي الحالي للفة العربية هو نظام صامتي Consonantal‏ 


عمومًا لا يعترف إلا بالحروف الصحيحة وحروف المد واللبنء ولا يعترف بالحركات 
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حروفًا. فكل ما ليس له رمز الألفباء العربية لا يعد حرفاء على الرغم من قول 
علماء العربية (Y)‏ إن الحركات أبعاض حروف المد واللينء وهي تماثلها من حيث 
النوع ولكن تختلف عنها من حيث الكم» وإدراكهم قيمة الحركات ك التمييز بين 
الألفاظ المعجمية والصيغ الصرفية والحالات الإعرابية. 


وقد استعيض عن دمجها 2 بنية الكلمة المكتوبة بوضع علامات لها Diacrit-‏ 
ics‏ تكتب خارج الكلمة فوق الحروف أو تحتها. 


ومن المشكلات رسم الهمزة الذي يختلف حسب موضعها من الكلمة (آي 
مجيتها أولا أووسطًا أو آخرًا) وحركة ما قبلها أوسكونه. وحركتها هي أو سكونها. 
oss‏ بهذا الجاتب الاس aa‏ ).3 الق pags‏ 3 الول الت بى بها توت اذ 
إلى النطق بالساكن 2 أول المجموعة الكلامية Utterance‏ وهي تختفي إذا سبق 
الساكن BAS poe‏ درج اكلام ومع ذلك تقال نظ مرها alia.‏ اوت 
Leu‏ على أن هذا الموضع هو مما يستوجب إدخال الهمزة عندما لا تكون هناك 
حركة. وواضح ما تدخله همزة الوصل من تغيير 2 النمط المقطعي للكلمة. 

ومن المشكلات كذلك كتابة الألف 2 نهاية الكلمات من أفعال وأسماء قائمة 
أو غير قائمة cl)‏ مقصورة 2 الاصطلاح الشائع)ء والتفريق بين هاء الضمير 
(كما 2 له وعنده) والتاء المربوطة LS)‏ 2 طالبة) إذ يحدث اللبس فيهما عندما 
لا توضع نقطتان للتاء المربوطة. و كذلك التفريق بين التاء المربوطة التي يوقف 
عليها بالهاء fie)‏ فاطمة) والتاء المفتوحة التي يوقف عليها بالتاء (كما يقالت 
وأوقات) . 


وقد يعد من المشكلات وصل الحروف بعضها ببعض. لأنه يجعل من الكلمة 
وحدة إملائية لا وحدة معجمية أو صرفية بحتةء ويصعب تحليل كلمات مثل 


(سألتكه) إلى عناصرها الأولى من صرفية ومعجمية. 
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ومن المشكلات أن الواو تمثل حرفين هما واو المد وواو cc lll‏ وأن الياء تمثل 
حرفين كذلك هما ياء المد وياء اللينء مع أن اللين ذو طبيعة صامتة والمد ذو طبيعة 
صائتة. (V)‏ 


ومن المشكلات زيادة حروف لا تنطق» كزيادة ألف بعد واو الجماعة التي يسند 
الفعل الماضي والمضارع المجزوم أو المنصوب إليها )05-25 يَدَعُواء لن تدعوا) . 
وربما كانت هذه الزيادة ذات فائدة 2 التمييز بين واو الجماعة التي أسند إليها 
الفعل والواو الأصلية التي ينتهي بها الفعل الناقص غير المسند» مثل يدعو ويرجو. 
إلا أنه صار من الأخطاء الشائعة إدخال هذه الألف بعد واو الفعل غير المسند 
(seu)‏ وبعد جمع المذكر السالم المرفوع المضاف ( مهندسوا المشروع) . 

وعكس ذلك نقص بعض الحروف كنقص الألف 2 أسماء الإشارة (مثل هذا 
وهذه). وقد أصبحت هذه الكلمات وأشباهها بحكم الشيوع والإلف bas Lauds Lg,‏ 
لا يشير 2 نفس العربي أية مشكلة. خلا بعض الصعوبات 2 مراحل التعليم الأولى. 
وريما كانت هذه الكلمات وأضرابها مشكلة لدى المتعلمين من الأجانب. وكاختفاء 
لام التعريف -نطقا- قبل الحروف الشمسية ووهو من قبيل الإدغاه”7”. 

ومن الأخطاء الشائعة وضع ياء بعد ضمير المخاطبة (قرأتي. «(Sd‏ والخطأ 
ب كتابة "ابن" بين علمين؛ والطريقة التي تكتب بها بعض الألفاظ مثل asa‏ بالألف. 
و"داوود" و" طاوومس" بواوواحدة, والتي والذي واللذين بلامين فتلتبس بلفظي 
المثنى اللذين واللتين. 

والخطأً 2 كتابة الاسم المنقوصصء ومسائل الفصل والوصل 2 أمثال: Cyd‏ 
ولئلا وطالما وانما وثلا ثمئة. 


OOO‏ يتظر ي مشكلات الرسم والأخطاء الشائعة الكتب الآتية: الإملاء العربي لأحمد 
قبشء والإملاء والترقيم 2 الكتابة العربية لعبد العليم إبراهيم i‏ وقواعد الإملاء لعبد 
السلام هارون 


Y 


ويمكن التفريق بين الواو المدية والواو اللينةء والياء المدية» والياء اللينةء بوضع 
ضمة قبل واو eall‏ وكسرة قبل ياء المد. كما de‏ القدماء. 


إن المشكلات السابقة ليست بالمستعصية:؛ ويمكن للبرامج الحاسوبية أن تقوم 
بمعالجة كثير منهاء وقد أحرز نجاح لا يستهان به 2 هذا المجال. وبقي بعضها عقبة 
أمام برامج التحليل اللغوي. 

كما يجدر التنبه هنا إلى أن علامات الترقيم تساعد كالضبط تمامًا على 
الفهم السليم للنصوص. إذا ما Cy al‏ استخدامها عند حدود المعاني الجزئية 
وحدود المعاني الكلية. وهي علامات مهمة 2 تحليل النصوص حاسوييًا. 


ه. الخلاصهة 

لا تواجه جهود لسانيي الحاسوب العرب تحديات كبرى تعود إلى عدم كفاءة 
نظام كتابة العربية 2 تمثيل صوت الكلمة العربية أوصرفها. ومع ذلك قصرت 
جهودهم عن تطوير نظم التحليل اللغوي التي تضاهي النظم التي طورت للغة 
الإنجليزية. Ly‏ تظهر حتى الآن تطبيقات الذكاء الاصطناعي العربية 2 الفهم 
الآلي التي يمكن توظيفها 2 تطبيقات الترجمة الآلية والبحث عن النصوص 
والتعرف على الحروف» وغيرها من التطبيقات. إن هذه النتيجة تدعو الى دراسة 


5. المراجع 
Abderahman. W. (1991) A concise dictionary of scien-‏ .1 
tific roots: Graeco - Latin - English - Arabic. A new ap-‏ 
proach to the study of some aspects of Neologisation.‏ 
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LY‏ غانم قدوري الحمدء "علم الكتابة ٠٠٠۶ glace glee glo Ay pall‏ 


ص ۱۰۵ . 


YY 
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فهد لطباعة المصحف الشريف. المدينة المنورة . ١١١٤٠١ه-٠ eY‏ 


محمد أحمد أبوعيد. مجلة دراسات ب اللغة العربية وآدابهاء فصلية 
EEP‏ العدد السادس عشرء 1٤ / Pi brie?‏ 125 
تمام حسان. "اللفة العربية معناها ومبناها"'. عام الكتب» القاهرة, 


A ص‎ ۰٤ 


دمشق٥۱۹۸‏ جا ص ۱۷ . 


QM oie Y 12 «8 ala الأصوات. دار غريب»‎ ele كمال بشرء‎ 


YY 
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أبحاث جامعة jul‏ 2 مجال لسانيات المدونات العربية 


o (Eric Atwell) د. إيريك أتويل‎ 


E.S.Atwell@leeds.ac.uk 


أ عبد الله بن يحيى الفيفي”” 


ayjfaifi@imamu.edu.sa 


أستاذ مشارك 2 قسم الحاسب الآلي 2 جامعة ليدز ببريطانيا. 
متخصص 2 معالجة اللغة طبيعية» ومهتم بمجال التنقيب 2 النصوص وتحليل البيانات» وله 
اهتمام كذلك باللغة العربية» وقد أجرى العديد من الأبحاث حول هذه wale ga gh!‏ كما أشرف 


على مجموعة من طلاب الدكتوراه الذين أسهموا 2 بحث هذه الموضوعات. 


(okk‏ معهد تعليم اللغة العربية» جامعة الإمام محمد بن سعود الإسلامية» الرياض. 


متخصص 2 معالجة اللغة الطبيعية؛ شارك عدد من المشاريع العلمية -2 مجال معالجة 
اللغة العربية حاسوبيًاء له عدة أبحاث منشورة حول مدونات المتعلمين» إضافة إلى مشاركته 
2 تحكيم عدد من الأبحاث العلمية. أنشأالمدونة اللغوية لمتعلمي اللغة العربية WWW.)‏ 
(arabiclearnercorpus.com‏ إضافة إلى بعض التطبيقات الحاسوبية 2 مجال 
المدونات اللغوية» مهتم بعلم اللغة الحاسوبيء وتعليم اللغة بمساعدة الحاسب. 


Yo 


M. 
Tiv 
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الملخص 


طور الباحثون 2 مجال لسانيات المدونة ومعالجة اللغة الطبيعية 4 بريطانيا 
الكثير من المدونات اللغوية والأدوات الحاسوبية للبحث 2 اللغة الإنجليزية. و2 
جامعة yaad‏ أردنا أن تمتد هذه الأبحاث لتشمل اللغة العربية أيضًا؛ ولأن هذا 
يتطلب بناء مدونات لغوية عربية فقد أنشأنا عدة مدونات منها: مدونة تعليم 
العربية بواسطة الحاسب AM‏ والمدونة اللغوية للعربية المعاصرة؛ ومدونة الإنترنت 
din pall‏ ومدونة اللغة العربية حول العالم, والمدونة اللغوية لتدريس معلومات عن 
الإسلام» والبنك الشجري للخطاب العربيء والمدونة اللغوية لمتعلمي اللغة العربية, 
والمدونة العربية لنصوص القرآن الكريم؛ ومدونة الإحالة الثنائية لضمائر القرآن 
الكريم؛ ومدونة الترابط الدلالي بين آيات القرآن الكريم» ومدونة القرآن الكريم 
الموسومة بموضوع الآيات مع الترجمة الإنجليزيةء ومدونة جامعة الملك سعود للغة 
العربية الفصحى. كذلك طورنا مجموعة من الأدوات لتحليل النصوص العربية. 
منها: الكشاف السياقي aConCorde‏ للغة العربيةء والمحلل الصرك SALMA‏ 
لوسم أقسام الكلام -2 المدونات العربيةء وجدول وسم الأخطاء # مدونات المتعلمين 
Zig pall‏ والوسم الصوتي والمقطعي للغة العربيةء وتدريب برامج التخاطب الآلي 
على مدونة عربيةء والوسم الدلالي والتمثيل pall‏ 2 للقرآن الكريم. وقد استخدمت 
هذه المدونات اللغوية والأدوات الحاسوبية لإجراء العديد من الأبحاث 4 مجال 


O00‏ جامعة ليدز هي أقدم وأكبر جامعة Yorkshireasblic2‏ .2 إنجلترا. افتّتحت الجامعة عام 
YA E‏ ويعمل فيها حاليًا ما يربوعلى سبعة آلاف أكاديمي وموظف» كما يدرس فيها أكثر من اثنين 
وثلاثين ألف طالب من VET‏ دولة. تتميز الجامعة كذلك بأبحاثها الواسعة 2 عدد من الموضوعات 
الحنوية: كالمتديسية: tac Lace RO cog‏ هركن ua Ur‏ جا Pete nen ep Soc oc‏ 
المراكز البريطانية التي تقدم أبحاثا ومنحا 2 الجوانب المتعلقة بدراسة اللغةء وينتمي لهذا المركز 
أكثر من مئة باحث 2 العلوم الإنسانية, والآداب» والتربية: والعلوم الاجتماعية والنفسيةء وعلوم 
ce La I‏ والخامب الألى» والهتدسة. 


YN 


لسانيات المدونات العربيةء ومن ذلك على سبيل المثال تعليم AUT‏ العربيةء والمقارنة 
بين اللغتين الإنجليزية والعربية. ويعد موقع المدونة العربية لنصوص القرآن الكريم 
أحد أبرز الأمثلة على هذه الأبحاث. حيث يُستخدم على نطاق واسع من قبل 
الباحثين 2 اللغويات العربيةء وكذلك علماء الشريعة الإسلامية؛ وعامة الناس -2 
البلدان الإسلامية وغيرها من البلدان حول العالم. وقد قادتنا هذه الأبحاث إلى 
اقتراح موضوع ee‏ النصوص الدينية" باعتباره أحد التحديات الجديدة والهامة 
2 مجال البحث 2 لسانيات المدونات اللغوية. 


-١‏ المقدمة 
يمكن تعريف المدونة اللغوية (corpus)‏ بأنها مجموعة من النصوص اللغوية 
gi-‏ الأحاديث الشفهية- الطبيعية؛ التي تجمع لأغراض محددة؛ وتحفظ بطريقة 
abla‏ للقراءة والبحث حاسوييًا McEnery et al., 2006; Leech, 19923 Ju-)‏ 
3٠١4 .rafsky and Martin‏ ). وتتعدد التسميات corpus à teal à s yall‏ لكن 
تسميتها 'مدونة لغوية" قد تكون الأكثر شيوعًا حسبما يرى محمود إسماعيل 
صالح ( العصيميء قيد النشر)ء وكذلك وردت 4 مجموعة من معاجم ترجمة 
المصطلحات اللغوية والحاسوبية (انظر مشلا البعلبكيء AYA IAA‏ والمبارك, 

AV 06‏ والزهيريء PTO :7٠١7‏ والفهري» ۲۰۰۹: (QM‏ 
لم تعد خافية على الباحثين اللغويين تلك الأهمية التي بات يحظى بها الجانب 
الحاسوبي 2 الدراسات اللغويةء فمثلا يرى (Y+ V) Kilgarriff‏ أن أدوات معالجة 
اللغة الطبيعية وكذلك اللغويات الحاسوبية قد دخلت إلى مجالات البحث اللغوي 
كالمتنمر 2 باحة المدرسةء مما جعل كل ما هو غير حاسوبي Lisl‏ خاضعًا لهاء أو 
متواطنًا معهاء أو مُهِمّشًا. وقد أدرك الباحثون Z‏ جامعة ليدز هذه الأهمية؛ فطوّروا 
cal gal‏ حاسوبية ومصادر لغوية بداية باللغة الإنجليزية؛ ثم توسعوا 2 هذه الأدوات 
والمصادر لتشمل عددًا من اللغات ومنها اللغة العربية. وفيما يتعلق بلسانيات 


YA 
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المدونات العربية فثمة عدة وحدات بحثية 4# الجامعة تشترك جميمًا 2 العمل 
على هذا المجال؛ ومنها قسم الحاسب الآلي. وقسم اللغات والثقافات والمجتمعات. 
وقسم الدراسات العربية والإسلامية والشرق أوسطية؛ ومركز دراسات الترجمةء 
وقسم اللغويات والصوتيات» ومعهد الذكاء الاصطناعي والأنظمة الحيوية. وتتبنى 
هذ الأقسام 2 جامعة ليدز عددًا من المشاريع البحثية 2 مجالات رئيسة مثل: 
بناء المدونات العربيةء وتطوير أدوات تحليل النصوص ay pall‏ إضافة إلى إجراء 
الدراسات العلمية 2 مجال لسانيات المدونات العربية. 


نسرد ذخ الفصل الثاني من هذا البحث ÉS‏ بأهم المدونات اللغوية العربية 
التي أنشئت 2 جامعة ليدز. ثم نخصص الفصل الثالث لاستعراض مجموعة من 
الأدوات الحاسوبية المصممة لتحليل النصوص العربية؛ و2 الفصل الرابع نتحدث 
عن أبرز الموضوعات البحثية التي استفادت من هذه المدونات اللغوية والأدوات 
الحاسوبيةء ثم نختم بأهم مجالات البحث اللغوي التي نسعى لدراستها مستقبلا. 


"-المدونات اللغوية العربية 

أنشئت 2 جامعة ليدز مجموعة من المدونات اللغوية العربية لتكون مصدرًا 
مساعدًا لإجراء الدراسات على اللغة العربيةء ونسرد فيما يلي هذه المدونات مع 
إيراد أمثلة للأبحاث التى استفادت من كل واحدة منها. 


مدونة تعليم العربية بواسطة الحاسب الآلي (ABC: Arabic By Computer)‏ 

بدأت مشاركة جامعة ليدز 2 أبحاث لسانيات المدونات العربية من خلال 
مشروع مدونة النصوص العربية الفصحى لتعليم اللغة العربية بمساعدة الحاسب 
Arabic By Computer‏ وكان الهدف من هذا المشروع إنشاء مصدر لغوي لمتعلمي 
اللفة العربية. يحتوي على قاعدة بيانات للنصوص العربية ومعجم للمفردات 
Brockett et al)‏ 1584 ( . وعند إنشاء المدونة»ء كان عرض النصوص العربية 


وتحريرها يتطلب أجهزة وبرامج خاصة للحاسب الآلي من شركة أبل ماکنتوش. 


۲۹ 


و ثمانينات القرن الماضي لم تكن إدارة الحاسب الآلي 2 جامعة ليدز توفر 
حاسبات لتعليم aa!‏ حيث كان استخدام هذه الأجهزة مقصورًا على أبحاث 
العلوم والهندسة. ومن هنا رأينا أهمية إيجاد وسائل تمكن المختصين من الوصول 
إلى المدونات العربية بسهولة ودون أية قيود لكونها مصدرًا لغويًا مهما البحث 
والتعليم. 
المدونة اللغوية للعربية المعاصرة (CCA: the Corpus of Contemporary Arabic)‏ 
كانت أبحاث لسانيات المدونات 2 جامعة ليدز قد Gy b‏ 2 بداياتها بعض 
المدونات وأدوات التحليل الخاصة باللغة الإنجليزية: ولكي يتم التوسع 2 هذه 
الأدوات لتشمل اللغة العربية فقد قامت بإنشاء أول مدونة لغوية عربية واتاحة 
تنزيلها مجائاء وتشمل مليون كلمة من اللغة العربية المعاصرة Al-Sulaitiand)‏ 
(Ys V. + *0 Atwell‏ صممت هذه المدونة لتكون قابلة للمقارنة مع مدونة Lan-‏ 
(caster-Oslo-Bergen Corpus (LOB‏ للإنجليزية البريطانية المعاصرة التي 
تشتمل على مليون كلمةء وكذلك مدونة Brown‏ للا نجليزية الأمريكية المعاصرة. 
وفيها مليون كلمة أيضًا (Leech et al1983a)‏ . وعوضًا عن استنساخ نفس الأنواع 
Sin Rally a ANI‏ ماعن الكو فة إن طت أززاء PEEL‏ 
من المستخدمين المحتملين لهذه المدونة 2 مجالي تعليم اللغة وتحليل النصوص 
ay pall‏ للتعرف على مدى تفضيلهم لأنواع أدبية محددة» ومن ثم ضمنت هذه 
el I‏ المدوتة :وقد استخدمت المدوثة اللثوية Ay pall‏ المفاضرة من قيل 346 
من الباحثين 2 مجال لسانيات المدونات العربية وذلك لعدة أغراض بحثيةء منها 
على سبيل المثال: تعليم الهجاء والمفردات 2 اللغة العربية «(Y+ VY Erradi et al)‏ 
وتصنيف المعاجم العربية (Y: V Attia et al)‏ وعمل معجم لما يكتب متصلا 
بالعربية .)۲١٠١ .Elarian and Idris)‏ وترجمة المجازات ذات الصبغة الثقافية 
2 المقالات العلمية Y Merakchi and Rogers)‏ :¥(. والاختلافات المعجمية 2 
قسمي الشؤون الدولية والرياضة 2 الصحف العربية (Y: VY Abdul Razak)‏ 


Y. 
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ومنها أيضًا الدراسات القائمة على المدونات 2 علم all‏ 3 الاجتماعي Friginal)‏ 
.(Y* ١ and Hardy‏ 


(Arabic Internet Corpus) ua pall مدونة الانترنت‎ 

كانت المدونة الوطنية البريطانية (BNC: British National Corpus)‏ 
-2 تسعينات القرن الماضي تمثل معيارًا مُعتَمَّدًَا ‏ مجال لسانيات المدونات 
الإنجليزية: ولم يكن هناك تمويل وخبرات كافية لبناء مدونات عامة وكبيرة لأي 
من اللغات الأخرى لتحاكي المدونة الوطنية البريطانية Abe‏ مليون كلمة). وللتغلب 
le‏ ذلك isis llic ed aes eia uie utn Gig ae‏ 
لغوية (Y-* £ Baroni and Bernardini)‏ مما طلب تحديد قائمة من الكلمات 
تمثل اللغة الهدف وتُستخدّم من قبل برامج خاصة تقوم بجمع مواد المدونةء وذلك 
بإرسال مجموعة من هذه الكلمات للبحث عنها ‏ محركات البحث المعروفة على 
شبكة الإنترنت» مثل Bings Yahoo s Google‏ وغيرهاء ومن ثم تنزيل صفحات 
النتائج» وتصفية النصوص. ثم تجميعها 4 مدونة واحدة. 2g‏ جامعة ليدز Eid‏ 
هله ea yl Laeta) d agit‏ مدونة لقوية كبرى) geal‏ مدونات من cá Sy‏ 
للغة العربيةء والصينيةء والفرنسية: والألمانية: والإيطالية: والإسبانية: والبولندية, 
والروسية .)۲٠٠١٠ Sharoff)‏ وهي مدونات متاحة للجميع من خلال واجهة BLESS‏ 
السياقات والمتصاحبات على الموقع التالي: http://corpus.leeds.ac.uk/inter-‏ 
.net.html‏ وتشمل مدونة الإنترنت العربية VYT‏ مليون LAS‏ وقد أضيفت الأصول 
المعجمية إلى كلماتها 2 وقت لاحق باستخدام برنامج التحليل SALMA 2. pall‏ 
.(Y* va Sawalha and Atwell)‏ 


مدونة alll‏ العربية حول (World Wide Arabic Corpus) (eJ laf!‏ 
جمع الباحثون 2 جامعة ليدز مدونة لغوية عربية من أنحاء العالم Atwell)‏ 
)3٠١307 etal‏ مماثلة لمدونة اللغة الإنجليزية حول العالم World Wide English‏ 


YN 


aga وتشمل مدونات فرعية تتألف كل واحدة من مئتي آلف كلمة من كل‎ Corpus 
فوقو امك نه المدؤنة‎ M من كه‎ e gil cs Eu زا‎ tas 
ما يعرف باللهجات) 2 استخدام‎ gl) لدراسة التنوع بين لغات الأقطار العربية‎ 
وكذلك التباين .2 اللغة العربية‎ (Y Y. Y- Y- Hassan et al) أدوات الوصل‎ 
(Y: *5 Atwell et al) وإنجليزية العرب 2 العالم العربي‎ 


المدونة اللغوية لتدريس معلومات عن الاسلام (Corpus for Teaching about Islam)‏ 

استخدمت شبكة الإنترنت - باعتبارها مدونة لغوية - لجمع مدونة تخصصية 
تضم النصوص المستخدمة لتدريس معلومات حول الإسلام للمستوى الجامعي At-)‏ 
(Y+ well et al‏ وذلك من أجل تأليف موسوعة جامعية لاستخدامها 4# تدريس 


الطلاب عن الإسلام والمسلمين, وتشمل «AV‏ واللسانيات, ودراسات المناطق. 


البنك الشجري للخطاب العربي (Arabic Discourse Treebank)‏ 

يحتاج تحليل الخطاب ‏ اللغة العربية إلى نوع مختلف من وسم الكلمات (وهو 
مايعرف بالتحشية (annotation‏ .439 أنشأت الباحتتان Al-Saif and Markert‏ 
(Y 1+)‏ البنك الشجري للخطاب العربي» وهي مدونة تشمل 077 Ls‏ إخباريًا 
قد Cig‏ جميع أدوات الوصل فيهاء إضافة إلى العلاقة التي تربط كل أداة مع 
طرفيها. وقد تطلب هذا تطوير أداة حاسوبية لوسم الخطاب 2 النصوص Ag pall‏ 
وكذلك إنشاء موقع على شبكة الإنترنت لنشر المدونة. 
المدونة اللغوية لمتعلمي اللغة العربية CALC: Arabic Learner Corpus)‏ 

أنشئت المدونة اللغوية لمتعلمي اللغة العربية لتكون مصدرًا لغويًا لأبحاث تعليم 
à aul‏ العربية. وكذلك للبحث 2 مجال معالجة اللغة الطبيعية Alfaifi and At-)‏ 
(well 2013a, Alfaifi et al 2014‏ . يمكن تنزيل نصوص المدونة من شبكة الإنترنت 
مجاناء وهي تتألف من مجموعة من المواد المكتوبة والمنطوقة التي حررها متعلمو 
اللغة العربية 2 المملكة العربية السعودية خلال العامين Y Ws 7١١17‏ وتضم ١0/0‏ 


YY 
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نصا YAY YYY)‏ كلمة). شارك 2 تحريرها ۹٤١‏ طاليًا من dain W‏ و57 لغة 
A aliia al‏ ويبلغ متوسط طول النص الواحد IVA‏ كلمة. وتضم نصوص المدونة 
نوعين أدبيين: الأول سردي يحكي فيه الطالب رحلته 4 إحدى الإجازات» والثاني 
يناقش فيه الطالب اهتماماته الدراسية ومستقبله العلمي. ويستطيع الباحثون من 
خلال المعلومات الوصفية للطلاب 5535( (metadata)‏ التعرف على خصائص 
النص اللغوي وكذلك مؤلف النصء مما يضيف عمقا أكثر لتحليل بيانات المدونة, 
كما تفيد أيضًا 2 مجالي التعرف الآلي على النص المكتوب «aal dades‏ والتعرف 
على الكلام المنطوق. كما أن أصول الأوراق - المكتوبة يدويًا من قبل الطلاب - 
متاحة للتنزيل يعد ij‏ مكلت elt ol ge‏ الضوئي» ثم حفظت 2 ملفات 
بصيغة .PDF‏ وكذلك الحال بالنسبة للتسجيلات الصوتية olt‏ الطلاب الذين 
أذنوا بنشرها على الإنترنت» فهي متاحة للتنزيل 2 صيغة صوتية رقمية Le) MP3‏ 


Gt‏ ملفات المدونة بطريقة تسمح بالتعرف على الخصائص الأساسية 
للنص وكذلك المؤلف. نحو: S038_T2_M_ Pre NNAS W_C‏ وهي بالترتيب 
من اليسار: رقم الطالب» رقم النص» جنس الطالب. المرحلة العامةء ناطق بالعربية 
باعتبارها لغته الأم أو ناطق بغيرهاء نوع النص (مكتوب al‏ منطوق)؛ مكان تحرير 
أوتسجيل النص )2 الصف أو خ المنزل). يمكن تنزيل نصوص المدونة من موقعها 
الرئيمس ) L( http://www.arabiclearnercorpus.com‏ كما يمكن البحث فيها عن 
طريق الإنترنت من خلال الموقع التالي (http://www.alesearch.com)‏ أو موقع 
Kilgarriff et al) SketchEngine‏ :۰1( . استخدمت هذه المدونة 2 تقنية تهدف 
للتعرف على النصوص التي حررها الناطقون باللغة العربية وتمييزها عن تلك التي 
حررها الناطقون بغير العربية (Y: ١5 Malmasi and Dras)‏ وكذلك تصحيح 
الأخطاء .(Y* *£ Mohit et al) Ul‏ 


e 


المدونة العربية Aat‏ القرآن الكريم (Quranic Arabic Corpus)‏ 
بعد إصدار المدونة اللغوية للعربية المعاصرة Corpus of Contemporary)‏ 
(Arabic‏ ظهرت عدة أنواع من المدونات العربية المتاحة للاستخدام؛ لكن نصوص 
القرآن الكريم» وكذلك نصوص اللغة العربية الفصحى. لم تجد نفس العناية 
من قبل المهتمين ببناء المدونات العربية. ولذا تعد المدونة العربية للغة القرآن 
الكريم (Dukes et al 2013) Quranic Arabic Corpus‏ من أشهر المشاريع 2 
هذا الجانب» فقد Gis‏ هذا المصدر اللغوي من خلال شراكة انطلقت من جامعة 
ليدز. وتحوي هذه المدونة عدة طبقات من الوسم» مثل أقسام الكلام بعد تجزئة 
الكلمات بناء على الوحدات الصرفية )2010 «(Dukes and Habash,‏ والتحليل 
النحوي القائم على التوابع Dukes and Buckwalter, 2010, Dukes et al)‏ 
2010( والمعاني الإنجليزية لمفردات القرآن العربيةء وكذلك الترجمة الإنجليزية 
للآيات» وتضم المدونة أيضًا تسجيلات صوتية لتلاوة الآيات» إضافة إلى تصنيف 
الموضوعات 2 القرآن الكريم. وكان الدافع لهذا المشروع إنتاج مصدر يساعد على 
فهم القرآن الكريم: وإجراء المزيد من الأبحاث على نصوصه. ويمكن القول بأنه 
يختلف عن المشاريع الأخرى بتوفيره مادة لغوية أكثر عمقاء تقوم على تحليل قواعد 
اللفة العربية حسب المنهج العربي المعروف بالإعراب. وقد بات بالإمكان من خلال 
تبني هذا النهج تحفيز الباحثين اللغويين والشرعيين للعمل على موضوع التحشية 
بأسلوب تعاوني عن طريق الإنترنت» حيث يستخدم الوسم الآلي المبني على قواعد 
محددة 2 هذه الطريقة الجديدة لتحشية المدونة لغويًاء مع إجراء تدقيق يدوي 
أولي» ثم القيام بالتصحيح عن طريق الإنترنت من قبل الباحثين المتعاونين. وقد 
استفاد الوسم الصرك لمدونة العربية لنصوص القرآن الكريم من الجهد الذي 
قدمه مئة متطوع تقريبًاء وذلك على شكل اقتراحات لتدقيق الوسم اللغوي للمدونة. 
كما كان هناك دور إشراك لعدد قليل من المختصين 2 عملية الوسم» بحيث يقبلون 
اقتراحات التصحيح المقدمة عن طريق المتعاونين أو يرفضونها. كما استفادت 
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المدونة كذلك من الكم الكبير للتراث النحوي العربي الى قاد JUS a‏ تعليقات 


الباحثين على نصوص المدونة. 


التحدي الأبرز الذي واجه عملية تحشية نصوص القرآن عن طريق الإنترنت 
تمثل 2 الحاجة إلى بناء برنامج ald‏ عبارة عن منصة عمل تساعد على الوسم 
بأسلوب تعاوني» ومن هنا بدأت فكرة بناء منصة التحليل اللغوي متعدد الوسائط 
Dukes and At-) (LAMP: Linguistic Analysis Multimodal Platform)‏ 
)۲١٠۲ well‏ . استخدمت المدونة العربية لنصوص القرآن الكريم كمصدر معياري 
لعدد من الأبحاث التي أجريت على اللغة العربية الفصحى» ومن هذه الأبحاث 
استخراج جذور الكلمات العربية (YA Yusof et al)‏ والتحليل النحوي للغة 
العربية )2011 «(Mohammed and Omar 2011, Rabiee‏ واستخراج البصمة 
الأسلوبية 2 atl‏ 3 العربية Alqurneh et al forthcoming)‏ ) ؛ وتحليل الترابط 
-2 دراسات الترجمة العربية (Y+ Y Tabrizi and Mahmud)‏ والتلخيص الآلي 
(El-Haj et al forthcoming)‏ . وتحليل الصيغ الشفهية (Y: y£ Bannister)‏ . كما 
كان للمدونة أثر اجتماعي كبير تمثل -2 مليون زيارة لموقع المدونة JUS‏ عام caelo‏ 
ولق فمن EE‏ ناطفون cb‏ هيو الكزبية Balai qaia‏ من اة 
رغبتهم 2 الوصول إلى فهم أعمق لنص أصيل من اللغة العربية الفصحىء» وذلك 
بالاستفادة من التحشية اللغوية المستخدمة 2 المدونة. 
مدونة الاحالة الثنائية لضمائر القرآن الكريم QurAna: Quran Pro-)‏ 
(noun Anaphoric Co-Reference Corpus‏ 

تعد مدونة الإحالة ASLAN‏ لضمائر القرآن الكريم Sharaf and Atwell)‏ 
20122( مدوننة غنية من حيث التحشية ققد وسمت جميم الشماكر الشخصية 
فيها بمعلومات عن العائد الذي يشير إليه الضميرء سواء أكان العائد سابقًا للضمير 
al‏ كان Las Y‏ له وهو الغالب 2 المدونة. كما شمل الوسم كذلك العائد نفسه» أي 


Yo 


الكلمة أو الجملة التي تحوي المعنى» أو الشخص. أو OLII‏ أو الفكرة التي يشير 
إليها الضميرء ولهذا سميت بمدونة الإحالة الثنائية لشمول الضمير وعائده 2 
التحشية. 2 هذه المدونة eias‏ الباحثون ما يزيد عن ۲٤١.٠٠١‏ ضمير بمعلومات 
حول العائد؛ وكذلك أكثر من Call‏ عائد - تتكون من أسماء وعبارات - بمعلومات 
عن الأشخاص. أو الكيانات. أو المفاهيم: وذلك لجميع الأسماء أو الجمل التي تشير 
إليها هذه الضمائر. لم يكن من السهل تحديد العائد لجميع الضمائر الشخصية 
4 القرآن ia SIE‏ لكن كتب التفسير وكذلك كلام العلماء حول هذه الضمائر DIS‏ 
بمثابة الدليل للقائمين على تحشية المدونة. و2 بعض الحالات الخاصة حيث يكون 
للضمير أكثر من عائد» فقد اتبعنا ما ورد 2 تفسير ابن كثير الذي يعد is‏ 
مرجعيًا 2 تفسير القرآن الكريم: وقد اعتمد عليه بدرجة كبيرة ب4 تحديد العائدء 
مع الأخذ كذلك بدرجة الاتفاق بين العاملين على تحشية المدونة حول عائد الضمير. 
وتعد هذه المدونة أول مدونة للغة العربية الفصحى يمكن تنزيلها Liles‏ مع كونها 
موسومة بهذا النوع من المعلومات عن الضمير وعائده. 


مدونة الترابط الدلالي بين آيات القرآن الكريم QurSim: Quran)‏ 
Verse Similarity Corpus‏ ( 

مدونة الترابط الدلالي بين آيات القرآن الكريم Sharaf and Atwell)‏ 
(2012b‏ تمثل إضافة جديدة 4 مجال التحشية اللغوية على النص القرآني» ففي 
هذه المدونة - المتاحة مجانًا للباحثين اللغوين المهتمين ببحث موضوع التشابه اللغوي 
والعلاقات الدلالية بين آيات القرآن الكريم - وسمّتٌ الآيات التي بينها علاقة من 
es‏ الالال eua le Cats Lll satel ig‏ ابن عجريف rl Sad‏ اسل ةفاح Dg‏ 
آيات القرآن الكريم؛ حيث يشير ابن كثير إلى الآيات ذات الصلة 2 معرض تفسيره 
لكل AT‏ وقد مكن ذلك من استخراج العلاقات المرجعية بين هذه الآيات والتي 
زاد عددها عن 7.1٠١‏ علاقة مشتركة. نشرت "مدونة الترابط الدلالي بين آيات 
القرآن PC‏ على الموقع التالي على شبكة الإنترنت ) TextMiningTheQuran.‏ 
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(com‏ حيث يستطيع المستخدم رؤية شبكة العلاقات المباشرة وغير المباشرة لأي آية 
من آيات القرآن الكريم. وقد أظهر تحليل المدونة أن AYY‏ فقط من الآيات المرتبطة 
ببعضها تشترك كلماتها 2 نفس الجذرء مما يدل على أن الارتباط بينها يتجاوز 
التطابق المعجمي للألفاظ إلى المعنى الدلالي والمجال pall‏ 2 يمكن استخدام 
هذه المدونة لاستخراج الموضوعات الواردة 4 القرآن الكريم وتصويرها من خلال 
العلاقات الدلالية بين الآيات )2014 (Panju‏ وبما أن ابن كثير قد تحدث 2 
تفسيره عن علاقات النص القرآني وهو نص عربي فصيح» فهذه العلاقات مصدر 
جيد يمكن الاستفادة die‏ 2 أبحاث ترجمة معاني القرآن الكريم» ومن ذلك على 
سبيل المثال أن الآيات التي بينها ارتباط 2 اللغة العربية ينبغي أن تبقى كذلك عند 
ترجمة معاني الآيات إلى أي لغة op Sl‏ وبالتالي فقد تكون هذه المدونة مصدرًا 
للبحث 2 ترجمة معاني القرآن الكريم OLY‏ الأخرىء وخصوصًا 2 موضوع الآيات 
المرتبطة دلاليًا والعلاقة بينها. 


مدونة القرآن الكريم الموسومة بموضوع الآيات مع الترجمة 
الإنجليزية Qurany: Quran Corpus Annotated with English Transla-)‏ 
(tions and Verse Topics‏ 
مدونة القرآن الكريم الموسومة بموضوع الآيات مع الترجمة الإنجليزية 
(Abbas 2009, Abbas and Atwell 2013) Qurany‏ عبارة عن أداة à L5‏ 
اللغة (إنجليزي - عربي) ذات قدرة على تحسين الدقة والاستجابة recall and)‏ 
(precision‏ عند البحث 2 موضوعات القرآن الكريم, وقد أمكن تحقيق هذا من 
خلال الجمع بين عدة أنواع من التحشية. حيث وسمت كل آية من آيات القرآن 
eu Sl‏ يمعلوماك عن الموضوع call‏ الذي تسريه والذي استخرج من Caruana’‏ 
التجويد" c‏ وهو مرجع موثوق يحوي فهرسًا لما يقارب Lal‏ ومئة من المفاهيم 
والموضوعات مع الآيات المرتبطة بها. وقد حول الباحثان فهر مس هذا المصحف 


إلى تصنيف يعرضها بصورة شجري يمكن استخد امه من خلال موقع المدونة 


YN 


على شبكة الإنترنت» حيث يستطيع المستخدم التنقل بين شجرة التصنيف لإيجاد 
الفكرة المطلوبة؛ ومن ثم الوصول إلى قائمة بالآيات المرتبطة بها. كما وسمَّت كل 
آية بثماني ترجمات إنجليزية مشهورة لمعاني القرآن الكريمء فبات بالإمكان إيجاد 
الآيات القرآنية من خلال البحث 2 هذه الترجمات الإنجليزية باستخدام أي كلمة 
أو كلمات a bide‏ كما يمكن للمستخدم مشاهدة مجموعة من مرادفات الكلمات 
المفتاحية المستخدمة 2 البحث, والاستفادة منها 2 توسيع نطاقه وبالتالي تحسين 
جودة النتائج. بإمكان المستخدم أيضًا الوصول إلى بيانات هذه المدونة وتنزيل 
محتواها على شكل صفحات مكتوبة بلغة النصوص المتشعبة HTML‏ وتشتمل كل 
صفحة من هذه الصفحات على آية واحدة مع ترجماتها الإنجليزيةء وكذلك قائمة 
مصحف التجويد للموضوعات المرتبطة بها. تتوافق لغة HTML‏ هذه مع معايير 
محرك البحث Google‏ حيث يمكنك قصر البحث 2 هذا المحرك على موقع 
إنترنت محدد باستخدام العبارة (SITE)‏ مع كلمات البحثء فعلى سبيل المثال 
تقوم عبارة البحث التالية: 


"prayer site:http://www.comp.leeds.ac.uk/nora/html"‏ بإيجاد جميع 
الآيات التي ورد ذكر الصلاة 4 ترجمات معانيهاء أو ورد ذلك 2 قائمة موضوعات 


KSUCCA King) مدونة جامعة الملك سعود للغة العربية الفصحى‎ 
(Saud University Corpus of Classical Arabic 

يمكن دراسة الأنماط المعجمية 2 القرآن الكريم باستخدام أي ALES‏ 
للسياقات متوافق مع اللغة العربية مثل aCon Corde‏ لكن الباحثين اللغوين 
e all plisoy‏ يعتاجون إلى مدوناك 118 Lost Qual pit‏ عبات اللغوية laii‏ 
الما ف SLAM asa de A pale A alil 2 s ARE ts at‏ أنشكت giga‏ 


الوطنية البريطانية لتكون أساسًا للبحث المعجمي» وهي تحتوي على مئّة مليون 
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كلمة. أما 2 اللغة العربية الفصحى فالنص القرآني يحتوي على خمسين آلف كلمة 
تقريبًا (بناء على طريقة احتساب حدود الكلمة)ء ولأن البحث # الدلالة التوزيعية 
لمفردات المعجم يحتاج إلى عدد كبير نسبيًا من الأمثلة لكل كلمة أو متصاحب لغوي 
للتمكن من دراسته؛ ولأن كثيرًا من الكلمات والعبارات 4 القرآن الكريم لم ترد 
إلا لغ مواضع قليلة؛ فقد تعاونت جامعة ليدز مع جامعة الملك سعود لإنشاء مدونة 
تحوي خمسين مليون كلمة من اللغة العربية الفصحى القريبة من فترة نزول القرآن 
iy SII‏ وهذه المدونة هي مدونة جامعة الملك سعود للغة العربية الفصحى Alra-)‏ 
(biah et al 2013, 2014a,b‏ . وقد سمحت LI‏ هذه المدونة بإيجاد كثير من الأمثلة 
والسياقات لكلمات وردت 2 القرآن (ea STI‏ وهي مدونة يمكن تنزيل محتوياتها 
من موقعها الخاص على شبكة الإنترنت (http://ksucorpus.ksu.edu.sa)‏ « كما 
يمكن البحث Lge‏ باستخدام موقع -(Kilgarriff et al 2014) SketchEngine‏ 
هذه المدونة تعد Le bids‏ للدراسات اللغوية التاريخية القائمة على المدونات Al-)‏ 
(rabiah et al 2014a‏ وكذلك دراسات الدلالة التوزيعية لمفردات القرآن الكريم 
Alrabiah et al 2014b)‏ ) . 


¥. أدوات تحليل النصوص العربية 

من المهم -2 ظل تنامي استخدام المدونات اللغوية وجود أدوات حاسوبية 
تستطيع الإفادة من هذه المصادر اللغوية: وبسبب الخصائص الفريدة للغة العربية 
فإنها تحتاج إلى أدوات تستطيع التعرف عليها ومعالجتها بطريقة صحيحة؛ وقد 
صمم الباحثون 4# جامعة ليدز مجموعة من الأدوات المخصصة لمعالجة اللغة 
Lg ana Ay pall‏ هذا القسم: 
الكشاف السياقي Aall aConCorde‏ العربية aConCorde Concordanc-)‏ 
(er for Arabic‏ 

من الملاحظ أن كشافات السياقات المتوفرة قبل عدة سنوات لم تكن مصممة 


Y 


qui ass Se S Eos iia E Leg ql 
عن تلك اللاتينية. والتباين 2 معايير تمثيلها حاسوبيًاء واختلاف‎ Ay pall الحروف‎ 
رسم بعض الحروف بناء على موضعها 2 الكلمةء ومن تلك الخصائص أيضًا عدم‎ 
رسم الصوائت القصيرة ( الحركات) 2 كثير من الأحيان,» والتباين  طريقة‎ 
استخدام علامات الترقيم: وكذلك كتابة النص العربي من اليمين إلى اليسارء‎ 
"الكلمات السابقة" و" الكلمات اللاحقة"‎ eaae والذي أبرز الحاجة إلى تبديل‎ 
كشاف‎ GÅ برامج كشافات السياقات لتلائم اتجاه النص العربي. ولهذا فقد‎ 2 
وهو أداة مجانية‎ aal السياقات 200200106 2 قسم الحاسب الآلي بجامعة‎ 
ومفتوحة المصدر. صممت 2 المقام الأول لمساعدة الباحثين 2 لسانيات المدونات‎ 
وقد أشادت دراسة علمية أجريت حول‎ . (Roberts et al 2005, 2006) ay pall 
ببرنامج‎ (Wiechmann and Fuhs 2006) كشافات السياقات 2 ذلك الوقت‎ 
كاملا للنصوص العربيةء ويتمثل هذا الدعم 4 عدة‎ Lacs الذي يوفر‎ 6 
جوانب منها واجهة المستخدم التي يمكن تحويلها بين اللغتين العربية والإنجليزية:‎ 
إضافة إلى دعمه لمجموعة من الخطوط‎ Unicode وتبنيه لترميز الحروف المعياري‎ 
وكذلك اتجاه النص العربي من اليمين إلى اليسار. وبعد عقد من الزمن‎ ag pall 
Alfaifi and) المستخدمة 2 تحليل المدونات العربية‎ NOCET اکر‎ 
حيث وجدت الدراسة أن معظم الأدوات ما زالت تعاني من‎ (Atwell 2014a 
عدة دراسات ے2 مجال‎ 2 aConcorde PIN مشاكل 2 دعم اللغة العربية. وقد‎ 
 ةعئاشلا لسانيات المدونات العربيةء ومن ذلك الكشف عن الأنماط المعجمية‎ 
؛ والكلمات والعبارات المفتاحية‎ (El-Haj et al forthcoming ) النصوص العربية‎ 
والتعرف على أساليب الجرائم من خلال مدونة إخبارية لتقارير‎ (Ali 2012) 

. (Alruily 2012) الجرائم‎ 
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المحلل SALMA 2. |a‏ لوسم أقسام الكلام 2 المدونات العربية 
(SALMA: Standard Arabic Language Morphological Analysis)‏ 

أسهم الباحثون 2 جامعة jad‏ 2 مشروع وسم مدونة LOB‏ للإنجليزية 
البريطانية المعاصرة (Atwell 1982, Leech et al 1983b)‏ ؛ وقد منحهم ذلك 
خبرة استفادوا منها 2 وسم المدونات العربية Atwell 2008. Atwell et al)‏ 
98 ). حيث جرى العمل على تطوير أداة للتحليل a‏ .2 وكذلك وسم أقسام 
الكلام 2 المدونات العربيةء إضافة إلى بعض الوظائف الأخرى. وكانت البداية 
بوسم عينة قصيرة من القرآن الكريم إضافة إلى نص إخباريء لتكون هاتان 
العينتان بمثابة معيار يمكن الاعتماد عليه لإجراء مقارنة بين المحللات الصرفية 
الحالية )2008 (Sawalha and Atwell‏ . كما جرت مقارنة بين منهجين لتحليل 
ALI‏ 3 العربية صرفيًاء يقوم الأول على أساس القواعد اللغويةء بينما يعتمد الثاني 
على المدونات اللغوية )2009 (Sawalha and Atwell‏ . قادت هذه الدراسات إلى 
تطوير أداة جديدة أطلق عليها SALMA‏ وهي أداة لتحليل الوحدات الصرفية 
الصغرى 2 اللغة العربية Arabic Corpus Part-of-Speech Tagging and Mor-‏ 
phological Analysis‏ مع وسمها باستخدام جدول الوسم all‏ لأقسام الكلام 
المضمن 2 هذه الأداة. 

والاسم SALMA‏ يشير إلى: محلل ليدز peal!‏ 2 لصوالحة وأتويل Sawalha‏ 
(Sawalha and Atwell 2013a) Atwell Leeds Morphological Analysis‏ أو 
المحلل Aa 2. pect!‏ العربية الفصحى Standard Arabic Language Morpho-‏ 
(Sawalha et al 2013) logical Analysis‏ . ويشتمل على مجموعة من الأدوات 
لتحليل المدونات Ay poll‏ ومنها جدول معياري لوسم أقسام الكلام» يأخذ بعين 
الاعتبار السمات الصرفية الأصيلة للغة العربية .(Sawalha and Atwell 2013b)‏ 
و فمو هة ا ال es REIS das‏ العزب القدماء easly‏ انها Gase‏ 
للجدول Lad!‏ اندي aes‏ فصتا شاماد S andas‏ ية الكلمةنف ARM‏ العربية 


£' 


ومع وجود عدد من الجداول الأخرى لوسم أقسام الكلام: والتي Shel‏ للقيام بمهام 
محددة 2 اللغة Ay pall‏ إلا إنها 2 الغالب إما مستفادة من نماذج أعدت للغة 
الإنجليزية: أوإنها تفطي جزءًا محدودًا فقط من الدراسات الصرفية العربيةء 
ولهذا فقد GAs!‏ مقيامس لمقارنة وتقييم جداول أقسام الكلام كجزء من المشروع 
الحالي. وقد أضيف إلى أداة التحليل الصر وجدول أقسام الكلام معجم عربي 
كبير مستمد من المصادر المعجمية مفتوحة المصدر على شبكة الإنترنت» وكذلك 
المعاجم التراثية للغة العربية (Sawalha and Atwell 2010b)‏ . كما أضيفت 
كذلك ميزة لعرض للتحليل الصرك العربي بطريقة LAUS po‏ حيث تظهر الوحدات 
الصرفية مميزة بآلوان مختلفة عن بعضها ليسهل تمييزها بصريًا Sawalha)‏ 
(and Atwell 2012‏ . وللتحقق من جودة عمل هذه الأدوات على المدونات الكبيرة, 
فقد تمت تجربتها على مدونة الإنترنت العربية التي يصل حجمها إلى ١75‏ مليون 
كلمة )20132 (Sawalha and Atwell‏ : كما استخدمتٌ 2 مجموعة من الأبحاث 
-2 مجال لسانيات المدونات العربيةء ومنها إنشاء قوائم بالمفردات اللغوية لتعليم 
اللغة العربية .)۲١٠١ Kilgarriff et al)‏ وتعليم الهجاء والمفردات العربية Er-)‏ 
(radi et al 2012‏ وكذلك التحليل النحوي العربي )2011 (Rabiee‏ . وأيضا تحليل 
وسائل التواصل الاجتماعي العربية )2013 (El-Beltagy and Ali‏ . 


جدول وسم الأخطاء 2 مدونات المتعلمين العربية Arabic Learner)‏ 
(Corpus Error Tag-Set‏ 

Gail‏ جدول تصنيف الأخطاء لاستخد امه 2 وسم الأخطاء اللغوية 2 مدونات 
المتعلمين العربية Alfaifi et al 2013. Alfaifi and Atwell 2012. 2014b)‏ ) . 
وقد استفاد هذا التصنيف من مجموعة من تصنيفات الأخطاء المصممة لمدونات 
المتعلمين» ليكون مناسبًا للأخطاء اللغوية التي يقع فيها متعلمو اللغة العربية. 
استخدّم هذا التصنيف لتطوير أداة هي عبارة عن محرر لوسم أخطاء الطلاب 
-2 المدونة اللغوية لمتعلمي اللغة العربية )2015 (Alfaifi and Atwell‏ : والذي يمكن 
الاستفادة منه 2 وسم أي مدونة من مدونات المتعلمين. 
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Arabic Phonetic and Prosodic) الوسم الصوتي والمقطعي للغة العربية‎ 
(Tagging 

نوع آخر من أنوع الوسم يتمثل 2 كتابة النصوص صوتيًا - ومنها نصوص 
القرآن الكريم - وذلك لعدة أهداف وتطبيقات كالتمكن من قراءتها بصوت 
مسموع» والتعرف الآلي على الكلام المنطوق. يستخدم علماء الأصوات الألفبائية 
الصوتية الدولية International Phonetic Alphabet) IPA‏ ( لكتابة النصوص 
المنطوقة 2 مختلف لغات العالم: ولآن رسم اللغة العربية لا يعبر عن طريقة اللفظ 
بدقة كبيرة؛ إضافة إلى أنه لا يوجد ربط مباشر بين كل واحد من الحروف المكتوبة 
2 اللغة العربية مع رموز الألفبائية الصوتية الدولية API‏ فقد Gh‏ نظام دقيق 
للربط بينهما مع كتابة النصوص العربية صوتيًا وبطريقة آليةء وقد بني هذا 
النظام على تحليل لتلاوة القرآن الكريم وأحكام التجويد كالوقف والغنة ونحوهماء 
إضافة إلى الاستفادة من مجالي اللغويات العربية وعلم الأصوات الحديث Brier-)‏ 
(ley et al forthcoming, Sawalha et al 2014‏ . ويتضمن oul‏ القرآني على 
وجه الخصوص رموذا مقطعية تشير إلى عدة أنواع من الوقف أو حدود الجملة التي 
ينبغي مراعاتها عند قراءة الآيات بصوت مسموع. وهي جزء من أحكام التجويد 
التي تضبط عملية النطق والوقف أثناء تلاوة القرآن الكريم. وقد استخدم نظام 
الربط بالألفبائية الصوتية الدولية؛ وكذلك رموز المقاطعء 2 التحشية الصوتية 
والمقطعية للمدونة العربية للقرآن الكريم الموسومة بحدود الوقف 2 النص القرآني 
(Brierley et al 2012a.b)‏ . يمكن أن تساعد هذه المدونة غير الناطقين باللغة 
العربية على تعلم التلاوة الصحيحة لآيات yl all‏ كما يمكن أن تستخدم لتدريب 
أدوات الوسم المقطعي لنصوص اللغة العربية Les‏ 4 ذلك اللغة العربية المعاصرة 
.(Sawalha et al 2012a,b)‏ 


<۳ 


تدريب برامج التخاطب 4151( على مدونة عربية Arabic Corpus-)‏ 
(Trained Chatbots‏ 

من الاستخدامات المبتكرة للمدونات استخدامها 4 تدريب برامج التخاطب 
الآلي عن طريق الإنترنت» والتي تقوم على أنظمة تعلم الآلة Machine Learning‏ 
(Abu Shawar and Atwell 2005a)‏ « ومن ثم تستخدم هذه البرامج بعد التدريب 
كأداة لاستكشاف المدونات نفسها (Abu Shawar and Atwell 2005b)‏ . وكمثال 
على AIS‏ فقد جرى تدريب برنامج للتخاطب الآلي على مدونة قرآنيةء وهوما 
أنتج لنا نظام تخاطب عربي يعطي إجابات من القرآن الكريم Abu Shawar and)‏ 
(Y+ +£ Atwell‏ كما دربت نسخة أخرى منه على مدونة للأسئلة الأكثر شيوعًا عن 
الحوسبة ay pall‏ ليقوم بالإجابة على أي سؤال حول هذا الموضوع Abu Shawar)‏ 
(and Atwell 2009‏ . 


Semantic Tag-) للغة القرآن الكريم‎ 2. ati الوسم الدلالي والتمثيل‎ 
- (ging and Knowledge Representation for Quranic Arabic 

تم إضافة الكثير من مستويات الوسم اللغوي للنص القرآني مثل: أقسام 
للجملء والبنية النحويةء كما أضيفت عدة أنواع من التحشية التي تمثل معلومات 
معرفية 2 القرآن: ومنها تصنيف الكيانات الاسمية المعروفة بالضمائر الشخصية: 
وكذلك موضوعات al!‏ وعلاقاتها الدلالية. وأيضًا ترجمة معاني القرآن الكريم 
إلى ALII‏ الإنجليزية:؛ ومن هذه الترجمات ما هوعلى مستوى الكلمة ومنها ما هو 
على مستوى الآية. ويهدف الباحثون 2 جامعة ليدز إلى توحيد جميع هذه التحشيات 
اللغوية والمعرفية )2013 (Abbas et al 2013, Abbas and Atwell‏ لإنشاء تصور 
للتمثيل ual‏ 22 القرآن الكريمء وذلك للتمكن من إجراء وسم دلالي له Sharaf)‏ 
(and Atwell 2009. Alrehaili and Atwell 2013, 2014‏ . 
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٤.البحث‏ اللغوي باستخدام المدونات العربية وأدوات تحليل نصوصها 
استّخدمت المدونات اللغوية والأدوات الحاسوبية التي طورها الباحثون 

2 جامعة ليدز لإجراء العديد من الأبحاث 2 مجال لسانيات المدونات Ag yall‏ 
ومن ذلك تعليم اللغة العربية, والمقارنة بين اللغتين الإنجليزية والعربيةء وهو ما 
سنتحدث dic‏ 2 هذا القسم. 
تعليم اللغة العربية باستخدام المدونات 

من خلال المشروع الرائد (Arabic By Computer) ABC‏ بئى الباحثون 
قاعدة بيانات للنصوص العربية ومعجم للمفردات لاستخدامهما ج تعليم وتعلم 
اللغة العربية )1989 (Brockett et al‏ . و الآونة الأخيرة استطعنا .2 جامعة ليدز 
تجربة كشاف للسياقات وبرامج للتخاطب الآلي» مستخد مين مدونات على شبكة 
الإنترنت. وذلك بهدف تعليم اللغة العربية )2007 ,2005 Al-Sulaiti et al‏ ) . ومن 
خلال الأبحاث القائمة على المدونات أيضًا Lal‏ قوائم للمفردات اللغوية التي 
تخدم متعلمي اللغة العربية )2013 (Kilgarriff'et al‏ .139 تواصلنا مع مجموعة من 
معلمي ومتعلمي اللغة ay pall‏ 2 قسم اللغة العربية بجامعة ليدز الذين يستخدمون 
المصادر اللغوية للمدونات ay pall‏ 2 تعلم وتعليم هذه اللغة. كما أن المجتمع المحلي 
للمسلمين أقام مدرسة لتعليم الأطفال اللغة العربية 2 أيام السبت من كل أسبوع, 
لتمكينهم من قراءة وفهم القرآن الكريم: وقد استمتع الطلاب بنظام التخاطب 
المبتكر على شبكة الإنترنت» والذي جرى تدريبه على مدونة قرآنية ليعطي إجابات 
بنفس اللغة العربية الفصحى المستخدمة 2 القرآن الكريم Abu Shawar and)‏ 
(Atwell 2004‏ . 


مقارنة اللغتين العربية والإنجليزية القائم على المدونات 
كان البحث 2 جامعة ليدز قد بدأ بمجال لسانيات المدونات الإنجليزية, 
(انظر مثلًا 1983.6 «(Leech et al‏ ثم deg‏ اهتمام بإجراء مقارنات بين اللغتين 
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العربية والإنجليزية تقوم على مدونات لهاتين اللغتينء وتشمل هذه المقارنات تأثير 
اللغة العربية على إنجليزية العرب» والتنوع ب استخدام اللغة الإنجليزية 2 العالم 
العربي )2009 (Atwell et al‏ كما تشمل كذلك جداول الوسم pall‏ 2 وأقسام 
الكلام 2 اللغتين العربية والإنجليزية Atwell 2008, Sawalha and Atwell)‏ 
(2013c‏ وأيضًا التمثيل البصري للنبر والوقف 2 نصوص المدونات العربية 
والإنجليزية من خلال تمييز مواضعها 2 النص بعلامات متباينة الألوان Brier-)‏ 
(ley et al 2012c‏ . 
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الخاتمة 


تستخدم أجهزة الحاسب الآلي والمدونات اللغوية على نطاق واسع 2 أبحاث 
اللسانيات» وقد طور الباحثون 2 جامعة ليدز عدة مدونات لغوية وبرامج حاسوبية 
على شبكة الإنترنت للاستفادة منها 2 مجال لسانيات المدونات العربيةء وهي 
أدوات مفتوحة المصدر ومتاحة على شبكة الإنترنت وليست تجارية: آملين أن 
يسهم ذلك 2 استخدامها على نطاق واسع. ويعتبر وسم وتمثيل الجوانب الدلالية 
والمعرفية 2 النصوص العربية - وخصوصًا 2 القرآن الكريم والنصوص الدينية 
الأخرى - Gass‏ للأبحاث Aes Lat‏ كما يمثل فهم القرآن حاسوبيًا التحدي الأكبر 
-2 مجال لسانيات المدونات العربية. 


tv 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


المراجع 


دار العلم للملايين, بيروت. 


۲. الزهيري» نبيل (TH)‏ معجم المصطاحات اللغويات 2 المعلوماتية. مكتبة 


لبنان» بيروت. 


تحرير صالح العصيمي»› المدونات اللغوية العربية: بناؤها وطرائق الإفادة مثها. 
مركز الملك عبد الله بن عبد العزيز الدولي لخدمة اللغة العربيةء الرياض. 


- فرنسى- عربي). دار الكتاب الجديد» بيروت. 


- ميارك )1440( معجم المصطلحات اللغوية (فرنسي - إنجليزي‎ THEE .0 
بيروت.‎ «Sall دار‎ (os 
6. Abbas. Nand E Atwell. 2013. 'Annotating the Arabic Quran 


with a classical semantic ontology.' Proceedings of WACL'2 


Second Workshop on Arabic Corpus Linguistics. 


7. | Abbas. N. L Aldhubayi. H Al-Khalifa H. Z Alqassem. E At- 
well. K Dukes. M Sawalha. and M Sharaf. 2013. ‘Unifying 
linguistic annotations and ontologies for the Arabic Quran.’ 
Proceedings of WACL2 Second Workshop on Arabic Cor- 


pus Linguistics. 


£4 


10. 


11. 


12. 


13. 


14. 


Abbas. N. 2009. ‘Quran Search for a Concept Tool and 
Website'. MRes Thesis. School of Computing. University of 
Leeds. 


Abdul Razak. Z. 2011. “Modern media Arabic: a study of 
word frequency in world affairs and sports sections in Ara- 


bic newspapers.’ PhD Thesis. University of Birmingham. 


Abu Shawar. B and E Atwell. 2004. ‘An Arabic chatbot giv- 
ing answers from the Quran.’ Proc TALN04: XI Conference 


sur le Traitement Automatique des Langues Naturelles. 


Abu Shawar. B and E Atwell. 2005a. “Using corpora in ma- 
chine-learning chatbot systems.’ International Journal of 


Corpus Linguistics. vol. 10. pp. 489-516. 


Abu Shawar. B and E Atwell. 2005b. “A chatbot system 5 
a tool to animate a corpus.’ ICAME Journal. International 
Computer Archive of Modern and Medieval English Jour- 
nal. vol. 29. pp.5-24. 


Abu Shawar. B and E Atwell. 2009. ‘Arabic Question-An- 
swering via Instance Based Learning from an FAQ Corpus.’ 


Proceedings of CL2009 Corpus Linguistics. 


Al-Saif. A. and K Markert. 2010. “The Leeds Arabic Dis- 
course Treebank: Annotating Discourse Connectives for 
Arabic.’ Proceedings of LREC’2010: Language Resources 


and Evaluation Conference. 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


15. 


16. 


17. 


18. 


19. 


20. 


2]. 


Al-Sulaiti. L and E Atwell. 2006. “The design of a corpus 
of contemporary Arabic.' International Journal of Corpus 


Linguistics. vol. 11. pp. 135-171. 


Al-Sulaiti. L. A Roberts. and E Atwell. 2005. “The use of 
corpora and concordance in the teaching of contemporary 
Arabic.’ Proceedings of EuroCALL’2005. 


Al-Sulaiti. L. A Roberts. B Abu Shawar. and E Atwell. 
2007. “The Use of Corpus. Concordancer and Chatbot in 
the Teaching of Contemporary Arabic. Proceedings of 
CL»2007 Corpus Linguistics 


Al-Sulaiti. L. and E Atwell. 2005. ‘Extending the Corpus 
of Contemporary Arabic.’ Proceedings of CL»2005 Corpus 


Linguistics. 


Alfaifi. A and E Atwell. 2012. ‘Arabic Learner Corpora 
(ALC): A Taxonomy of Coding Errors’. Proceedings of 
ICCA’2012 International Computing Conference in Ara- 
bic. 


Alfaifi. A and E Atwell. 2013a. ‘Arabic Learner Corpus v1: A 
New Resource for Arabic Language Research.’ Proceedings 
of WACL’2 Second Workshop on Arabic Corpus Linguistics. 


Alfaifi. A and E Atwell. 2013b. ‘Arabic Learner Corpus: 
Texts Transcription and Files Format. Proceedings of 
CORPORA 2013 International Conference on Corpus Lin- 


guistics. 


o 


22. 


23. 


24. 


25. 


26. 


27. 


Alfaifi. A and E Atwell. 2014a. “Tools for Searching and An- 
alysing Arabic Corpora: an Evaluation Study.’ Proceedings 
BAAL-CUP’2014 British Association for Applied Linguis- 
tics and Cambridge University Press Applied Linguistics 
Workshop. 


Alfaifi. A and E Atwell. 2014b. ‘An evaluation of the Arabic 
error tagset v2.’ Proceedings of AACL’2014 American As- 


sociation for Corpus Linguistics. 


Alfaifi. Abdullah and Atwell. Eric. 2015. Computer-Aided 
Error Annotation A New Tool for Annotating Arabic Er- 
ror. The 8th Saudi Students Conference. 31 January - 1 Feb- 
ruary 2015. London. UK. 


Alfaifi. A. E Atwell. and G Abuhakema. 2013. 'Error Anno- 
tation of the Arabic Learner Corpus: A New Error Tagset. 
Language Processing and Knowledge in the Web. vol. 8105. 
pp.14-22. Springer. 


Alfaifi. A. E Atwell. and I Hedaya. 2014. ‘Arabic Learner 
Corpus (ALC) v2: A New Written and Spoken Corpus of 
Arabic Learners.’ Proceedings of LCSAW’2014 Learner 
Corpus Studies in Asia and the World. 


Ali. I. 2012. ‘Application of a Mining Algorithm to Finding 
Frequent Patterns in a Text Corpus: A Case Study of Ara- 
bic.’ International Journal of Software Engineering and Its 


Applications. vol.6(3). pp.127-134. 


oY 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


28. 


29. 


30. 


31. 


32. 


33. 


Alqurneh. A. A Mustapha. M Murad. and N Sharef. Forth- 
coming. ‘Stylometric model for detecting oath expressions: 
A case study for Quranic texts. Literary and Linguistic 


Computing journal. 


Alrabiah. M. A Al-Salman. and E Atwell. 2013. "Ihe design 
and construction of the 50 million words KSUCCA King 
Saud University Corpus of Classical Arabic.' Proceedings of 
WACL?2 Second Workshop on Arabic Corpus Linguistics. 


Alrabiah. M. A Al-Salman. E Atwell and N Alhelewh. 
2014a. 'KSUCCA. A Key To Exploring Arabic Historical 
Linguistics.' International Journal of Computational Lin- 


guistics. vol. 5. pp.27-36. 


Alrabiah. M. N Alhelewh. A Al-Salman. and E Atwell. 
2014b. 'An Empirical Study On The Holy Quran Based On 
A Large Classical Arabic Corpus.' International Journal of 


Computational Linguistics. vol. 5. pp.1-13. 


Alrehaili. S and E Atwell. 2013. ‘Linguistics features to con- 
firm the chronological order of the Quran.' Proceedings of 
WACL?2 Second Workshop on Arabic Corpus Linguistics. 


Alrehaili. S and E Atwell. 2014. ‘Computational ontologies 
for semantic tagging of the Quran.' Proceedings of LRE-Rel 
2: 2nd Workshop on Language Resource and Evaluation for 


Religious Texts. 


ov 


34. 


35. 


36. 


37. 


38. 


39. 


Alruily. M. 2012. ‘Using Text Mining to Identify Crime Pat- 
terns from Arabic Crime News Report Corpus.’ PhD The- 
sis. De Montford University. 


Attia. M. P Pecina. L Tounsi. A Toral. and J Van Gen- 
abith. 2011. ‘Lexical Profiling for Arabic. Proceedings of 
eLex 2011 Electronic Lexicography in the 21st Century. 


Atwell. E. C Brierley. K Dukes. M Sawalha. and A Sharaf. 
2011. ‘An Artificial Intelligence Approach to Arabic and Is- 
lamic Content on the Internet.’ Proceedings of NITS’2011 
3rd National Information Technology Symposium. Ri- 
yadh. 


Atwell. E. J Arshad. C Lai. L Nim. N Rezapour Asheghi. J 
Wang. and J Washtell. 2007. "Which English dominates the 
World Wide Web. British or American?’ Proceedings of 
CL»2007 Corpus Linguistics. 


Atwell. E. K Dukes. A Sharaf. N Habash. B Louw. B Abu 
Shawar. A McEnery. W Zaghouani. and M El-Haj. 2010. 
"Understanding the Quran: a new Grand Challenge for 
Computer Science and Artificial Intelligence.' Proceedings 
of GCCR>2010 Grand Challenges in Computing Research. 


Atwell. E. L Al-Sulaiti. and S Sharoff. 2009. “Arabic and 
Arab English in the Arab World.’ Proceedings of CL2009 


Corpus Linguistics. 


ot 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


40. 


4]. 


42. 


43. 


44. 


45. 


46. 


Atwell. E. L Al-Sulaiti. S Al-Osaimi. and B Abu Shawar. 
2004. ‘A review of Arabic corpus analysis tools’. Proceed- 
ings of TALN’2004: Traitement Automatique des Langues 


Naturelles. 


Atwell. E. N Abbas. B Abu Shawar. L Al-Sulaiti. A Roberts. 
and M Sawalha. 2008. ‘Mapping Middle Eastern and North 
African Diasporas.’ Proceedings of BRISMES’2008 British 
Society for Middle Eastern Studies. 


Atwell. E. (ed.) 1993. “Knowledge at Work in Universities - 
Proceedings of the second annual conference of the Higher 
Education Funding Councibs Knowledge Based Systems 
Initiative.' 146pp. Leeds University Press. 


Atwell. E. 1982. LOB Corpus Tagging Project Manual 
Postedit Handbook. Department of Linguistics and Mod- 
ern English Language. University of Lancaster. 


Atwell. E. 1993. "Ihe HEFOs Knowledge Based Systems 
Initiative.’ AISBQ: Artificial Intelligence and Simulation of 
Behaviour Quarterly. vol. 83. pp.29-34. 


Atwell. E. 2008. ‘Development of tag sets for part-of-speech 
tagging.’ Ludeling A; Kyto M (ed.) Corpus Linguistics: An 
International Handbook. Volume 1. pp.501-526. Mouton 
de Gruyter. 


Atwell. E. 2011. “Exploiting New Technology and Inno- 
vation for Detecting Terrorist Activities.’ Counter Terror 


Expo. London. 


o0 


47. 


48. 


49. 


50. 


51. 


52. 


53. 


Bannister. A. 2014. ‘An Oral-Formulaic Study ofthe Quran.’ 


Lexington. 


Baroni. M and S Bernardini. 2004. ‘BootCaT: Bootstrap- 
ping corpora and terms from the web.' Proceedings of 
LREC’2004 Language Resources and Evaluation Confer- 


ence. 


Brierley. C. E Atwell. C Rowland. and J Anderson. 2013. 
‘Semantic Pathways: a Novel Visualization of Varieties of 
English.” ICAME Journal of the International Computer 
Archive of Modern English. vol. 37. pp.5-36. 


Brierley. C. M Sawalha. and E Atwell. 2012a. ‘Boundary 
Annotated Quran Corpus for Arabic Phrase Break Predic- 
tion.’ Proceedings of IVACS’2012 Inter-Varietal Applied 
Corpus Studies. 


Brierley. C. M Sawalha. and E Atwell. 2012b. ‘Open-source 
boundary-annotated corpus for Arabic speech and lan- 
guage processing.’ Proceedings of LREC’2012 Language 


Resources and Evaluation Conference. 


Brierley. C. M Sawalha. and E Atwell. 2012c. ‘Visualisation 
of Prosody in English and Arabic Speech Corpora.’ Pro- 
ceedinds of AVML’2012 Advances in Visual Methods for 


Linguistics. 


Brierley. C. M Sawalha. B Heselwood. and E Atwell. forth- 
coming. ‘A verified Arabic-IPA mapping for Arabic tran- 


e" 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


54. 


55. 


56. 


57. 


58. 


scription technology. informed by Quranic recitation. tra- 
ditional Arabic linguistics. and modern phonetics.' Journal 


of Semitic Studies. 


Brockett A. E Atwell. O Taylor. and M Page. 1989. 'An 
Arabic text database and glossary system for students.' Pro- 
ceedings of the Seminar on Bilingual Computing in Arabic 
and English. 


Danso. S. E Atwell. O Johnson. A ten Asbroek. S Sorome- 
kun. K Edmond. C Hurt. L Hurt. C Zandoh. C Tawiah. J 
Fenty. S Etego. S Agyei. and B Kirkwood. 2013. ‘A semanti- 
cally annotated verbal autopsy corpus for automatic analy- 
sis of cause of death.' ICAME Journal of the International 
Computer Archive of Modern and Medieval English. vol. 
37. pp.37-69. 


Dukes. K and E Atwell. 2012. LAMP. a multimodal web 
platform for collaborative linguistic analysis.’ Proceedings 
of LREC’2012 Language Resources and Evaluation Confer- 


ence. 


Dukes. K and N Habash. 2010. “Morphological Annotation 
of Quranic Arabic.’ Proceedings of LREC’2010 Language 


Resources and Evaluation Conference. 


Dukes. K and T Buckwalter. 2010. “A Dependency Treebank 
of the Quran using Traditional Arabic Grammar.’ Proceed- 
ings of INFOS’2010 7th Informatics and Systems. 


ov 


59. 


60. 


61. 


62. 


63. 


64. 


Dukes. K. E Atwell. and A Sharaf. 2010. ‘Syntactic Annota- 
tion Guidelines for the Quranic Arabic Dependency Tree- 
bank.’ Proceedings of LREO:2010 Language Resources and 


Evaluation Conference. 


Dukes. K. E Atwell. and N Habash. 2013. ‘Supervised col- 
laboration for syntactic annotation of Quranic Arabic.’ 
Language Resources and Evaluation Journal. vol. 47. pp.33- 
62. 


El-Beltagy. S. and A Ali. 2013. ‘Open issues in the sentiment 
analysis of Arabic social media: A case study.’ Proceedings 


of IIT'2013 Innovations in Information Technology. 


El-Haj. M. U Kruschwitz. C Fox. Forthcoming. Creating 
language resources for under-resourced languages: meth- 
odologies. and experiments with Arabic. Language Re- 


sources and Evaluation journal. 


Elarian. Yousef S. and Fayez M. Idris. 2010. «A Lexicon of 
Connected Components for Arabic Optical Text Recogni- 
tiom First International Workshop on Frontiers in Arabic 


Handwriting Recognition. 22 August 2010. Istanbul. 


Erradi. A. S Nahia. H Almerekhi. and L Al-kailani. 2012. 
ArabicTutor. a Multimedia m-Learning Platform for 
Learning Arabic Spelling and Vocabulary. Proceedings 
of ICMCS’2012 International Conference on Multimedia 
Computing and Systems. 


OA 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


65. 


66. 


67. 


68. 


69. 


70. 


71 


Friginal. E and J Hardy. 2014. 'Corpus-based Sociolinguis- 
tics: A Guide for Students.' Routledge. 


Garside. R and N Smith. 1997. ‘A hybrid grammatical tag- 
ger: CLAWSA.' in Garside. R. G Leech and A McEnery 
(eds.) ‘Corpus Annotation: Linguistic Information from 


Computer Text Corpora.' Longman. London. pp. 102-121. 


Greene. B and G Rubin. 1971. ‘Automatic grammatical tag- 
ging of English.' Technical report. Department of Linguis- 


tics. Brown University. 


Hassan. H. N Daud. and E Atwell. 2010. 'Connectives in the 
World Wide Arabic corpus.’ Proceedings of IVACS»2010 
Inter-Varietal Applied Corpus Studies. 


Hassan. H. N Daud. and E Atwell. 2013. 'Connectives in the 
World Wide Web Arabic corpus.’ World Applied Sciences 
Journal (Special Issue of Studies in Language Teaching and 


Learning). vol. 21. pp.67-72. 


Jurafsky. D. and Martin. J. H. 2009. “Speech and Language 
Processing: An Introduction to Natural Language Process- 
ing. Speech Recognition. and Computational Linguistics’. 


New Jersey: Prentice Hall. 


Karlsson. F. A Voutilainen. J Heikkila. and A Anttila (eds.). 
1995. ‘Constraint Grammar: A Language-Independent Sys- 
tem for Parsing Running Text.’ Mouton de Gruyter. Berlin 
and New York. 


og 


72. 


73. 


74. 


75. 


76. 


77. 


78. 


Kilgarriff. A. 2007. ‘Re: [Corpora-List] history of corpus lin- 
guistics.’ Corpora-List Archive. 6 January 2007. 


Kilgarriff. A. V Baisa. J Busta. M Jakubícek. V Kovář. J Mi- 
chelfeit. P Rychly. and V Suchomel. 2014. “The Sketch En- 
gine: ten years on.' Lexicography journal vol.1(1). pp.1-30. 


Kilgarriff. A. F Charalabopoulou. M Gavrilidou. J Jonan- 
nessen. S Khalil. S Johansson. R Lew. S Sharoff. R Vadla- 
pudi. and E Volodina. 2013 ‘Corpus-based vocabulary lists 
for language learners for nine languages.' Proceedings of 
LREC2013 Language Resources and Evaluation Confer- 


ence. 


Leech. G. 1992 «Corpora and theories of linguistic perfor- 
mance». in Svartvik. J. «Directions in Corpus Linguistics. 
pp 105-22. Mouton de Gruyter. Berlin. 


Leech. G. R Garside. and E Atwell. 1983a. “Recent develop- 
ments in the use of computer corpora in English language 
research.’ Transactions of the Philological Society. 1983. 
pp.23-40. 


Leech. G. R Garside. and E Atwell. 1983b. “The Automatic 
Grammatical Tagging of the LOB Corpus.’ ICAME Journal: 
International Computer Archive of Modern and Medieval 


English Journal. vol. 7. pp.13-33. 


Malmasi. S. and M Dras. 2014. Arabic Native Language 
Identification. In the proceedings of the EMNLP 2014 


a 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


79. 


80. 


81. 


82. 


83. 


84. 


Workshop on Arabic Natural Language. 25 October 2014. 
Doha. Qatar. 


McEnry. T. R Xiao and Y Tono. 2006. «Corpus-Based Lan- 
guage Studies: An advanced resource boolo. Routledge. 
London & New York. 


Merakchi. K and M Rogers. 2013 “The translation of cultur- 
ally bound metaphors in the genre of popular science ar- 
ticles: A corpus-based case study from Scientific American 
translated into Arabic.’ Intercultural Pragmatics journal. 
vol.10(2). pp.341-372. 


Mohammed. M and N Omar. 2011. ‘Rule based shallow 
parser for Arabic language.’ Journal of Computer Science. 
vol.7(10). pp.1505-1514. 


Mohit. B. A Rozovskaya. N Habash. W Zaghouani and O 
Obeid. 2014. The First QALB Shared Task on Automatic 
Text Correction for Arabic. In the proceedings of the EMN- 
LP 2014 Workshop on Arabic Natural Language. 25 Octo- 
ber 2014. Doha. Qatar. 


Panju. M. 2014. ‘Statistical Extraction and Visualization of 
Topics in the Quran Corpus.’ MMath Thesis. University of 
Waterloo. 


Rabiee. H. 2011. Adapting Standard Open-Source Resourc- 
es To Tagging A Morphologically Rich Language: A Case 
Study With Arabic. Proceedings of RANLP’2011 Recent 


Advances in Natural Language Processing. 


5١ 


85. 


86. 


87. 


88. 


89. 


90. 


91. 


Roberts. A. L Al-Sulaiti. and E Atwell. 2005. ‘aConCorde: 
towards a proper concordance of Arabic.’ Proceedings of 
CL'2005 Corpus Linguistics. 


Roberts. A. L Al-Sulaiti. and E Atwell. 2006 ‘aConCorde: 
Towards an open-source. extendable concordancer for Ar- 


abic.' Corpora journal. vol. 1. pp. 39-57. 


Sawalha. M and E Atwell. 2008. ‘Comparative evaluation 
of Arabic language morphological analysers and stemmers. 
Proceedings of COLING’2008 Computational Linguistics. 


Sawalha. M and E Atwell. 2009. 'Linguistically informed 
and corpus informed morphological analysis of Arabic.’ 


Proceedings of CL'2009 Corpus Linguistics. 


Sawalha. M and E Atwell. 2010a. ‘Fine-Grain Morphologi- 
cal Analyzer and Part-of-Speech Tagger for Arabic Text.’ 
Proceedings of LREC'2010 Language Resources and Evalu- 


ation Conference. 


Sawalha. M and E Atwell. 2010b. ‘Constructing and Using 
Broad-Coverage Lexical Resource for Enhancing Morpho- 
logical Analysis of Arabic.’ Proceedings of LREC’2010 Lan- 


guage Resources and Evaluation Conference. 


Sawalha. M and E Atwell. 2011. ‘Morphological analysis 
of classical and modern standard Arabic.’ Proceedings OF 


ICCA’2011 International Computing Conference in Ara- 
bic. 


“Y 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


92. 


93. 


94. 


95. 


96. 


97. 


98. 


Sawalha. M and E Atwell. 2012. “Visualization of Arabic 
Morphology.’ Proceedings of AVML’2012 Advances in Vi- 
sual Methods for Linguistics. 


Sawalha. M and E Atwell. 2013a. ‘Accelerating the process- 
ing of large corpora: using grid computing for lemmatizing 
the 176 million words Arabic Internet Corpus.’ Proceedings 
of WACL’2 2nd Workshop of Arabic Corpus Linguistics. 


Sawalha. M and E Atwell. 2013b. ʻA standard tag set ex- 
pounding traditional morphological features for Arabic 
language part-of-speech tagging.’ Word Structure journal. 
vol. 6. pp.43-99. 


Sawalha. M and E Atwell. 2013c. “Comparing morphologi- 
cal tag-sets for Arabic and English.’ Proceedings of CL'2013 


Corpus Linguistics. 


Sawalha. M. C Brierley. and E Atwell. 2012a. ‘Predicting 
phrase breaks in classical and modern standard Arabic text.’ 
Proceedings of LREC'2012 Language Resources and Evalu- 


ation Conference. 


Sawalha. M. C Brierley. and E Atwell. 2012b. ’Prosody pre- 
diction for Arabic via the open-source boundary-annotated 
Quran corpus.’ Journal of Speech Sciences. vol. 2. pp.175- 
191. 


Sawalha. M. C Brierley. and E Atwell. 2014. 'Automatically 


generated. phonemic Arabic-IPA pronunciation tiers for the 


wY 


99. 


100. 


101. 


102. 


103. 


104. 


boundary annotated Qur'an dataset for machine learning.’ 
Proceedings of LRE-Rel’2: 2nd Workshop on Language Re- 


source and Evaluation for Religious Texts. 


Sawalha. M. E Atwell. and M Abushariah. 2013. ‘SALMA: 
Standard Arabic Language Morphological Analysis.’ Pro- 
ceedings ICCSPA’2013 International Conference on Com- 


munications. Signal Processing. and their Applications. 


pp.1-6. 


Sharaf. A and E Atwell. 2009. “A Corpus-based Computa- 
tional Model for Knowledge Representation of the Quran’. 


Proceedings of CL'2009 Corpus Linguistics. 


Sharaf. A and E Atwell. 2012a. ‘QurAna: Corpus of the 
Quran annotated with Pronominal Anaphora.' Proceedings 
of LREC’2012 Language Resources and Evaluation Confer- 


ence. 


Sharaf. A and E Atwell. 2012b. ‘QurSim: A corpus for 
evaluation of relatedness in short texts.’ Proceedings of 
LREC’2012 Language Resources and Evaluation Confer- 


ence. 


Sharoff. S. 2006. ‘Open-source corpora: using the net to fish 
for linguistic data.’ International Journal of Corpus Lin- 
guistics 11 (4). pp. 435-62. 


Tabrizi. A. and R Mahmud. 2013. ‘Issues of coherence anal- 


ysis on English translations of Quran.’ Proceedings of ICC- 


5: 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


105. 


106. 


SPA’2013 International Conference on Communications. 


Signal Processing. and their Applications. 


Wiechmann. D and S Fuhs. 2006. ‘Concordance Software.’ 
Corpus Linguistics and Linguistics Theory journal. vol.2. 
pp109-130 


Yusof. R. R Zainuddin. M Baba. and Z Yusoff. 2010. 
‘Quranic words stemming. Arabian Journal for Science and 


Engineering. vol.35(2). pp.37-49. 


10 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


قواعد المبانات الالكترونية للمخطوطات الترائية العربية والإسلامية؛ 
الحاضر والمستقبل 


د. سامح عويضة ^ 


s.awaida(a)qu.edu.sa 


(k‏ أستاذ مساعد 2 قسم هندسة الحاسوب 2 جامعة القصيم المملكة العربية السعودية. حصل 
على درجة الدكتوراة 2 هندسة وعلوم الحاسب الآلي من جامعة الملك فهد للبترول والمعادن» 
والبكالوريوس والماجستير 4 الهندسة الكهربائية من جامعة هارتفورد» الولايات المتحدة 
الأمريكية. 2 السابق عمل محاضرًا 2 جامعة الملك فهد وجامعة الأميرة سمية. تشمل اهتماماته 
البحثية التعرف على الأنماط ومعالجة الصور والاًنظمة المدمجة. بالإضافة إلى اثنتين من 
براءات الاختراع العالمية» نشر أكثر من خمسة عشر بحثًا علميًا ‏ مجلات ومؤتمرات دولية. 
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ملخص 


OI‏ المشتفل بالتراث العربي والإسلامي يلاحظ Lends‏ واسعًا .2 جهود رقمنة 
المخطوطات,. وندرة 2 الاستفادة من البرمجيات والخوارزميات الحاسوبية ذات 
العلاقة بمعالجة الوثائق التراثية؛ على النقيض من مدى استفادة العلوم الإنسانية 
عند الغرب لهذه التقنية. يذكر الباحث 2 هذا المقال واقع رقمنة الوثائق التراثية 
من قواعد البيانات الإلكترونية لفهارس المخطوطات. وقواعد المخطوطات Aged pI!‏ 
مع ذكر أبرز المزايا والعيوب. كما يقترح المواصفات المناسبة لبناء قاعدة بيانات 
متنوعة الصور للمخطوطات العربية والإسلامية الممسوحة ضوئياء مع تحديد 
المتطلبات التي تمكن قاعدة البيانات المقترحة من خدمة باحثي العلوم الإسلامية 
وعلوم الحاسب الآلي Los‏ تم تنظيم قاعدة البيانات الإلكترونية المقترحة 
للمخطوطات التراثية لتقوم Gag‏ مهام محدّدة مسبقًا تساعد 2 تطوير البرمجيات 
الخاصّة بباحثي الحاسب الآلي: وتمكينهم من خدمة التراث العربي والإسلامي؛ 
والتي منها - على سبيل المثال - التعرف على الكتابة آليًاء والبحث عن صور الكلمات 
دون تعرفء وتحليل صور الوثائق: والتعرف على الناسخ والتحقق منهء وغيرها من 
مستجدات البحث العلمي. 
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Y‏ . مقدمهة 
إن العناية بتراث علمائنا السابقين؛ بحفظ أصول كتبهم الخطية من الواجبات 
A AUS‏ ويشمل ذلك إيقاف طلبة العلم النبهاء عليه اء واستخدام الوسائل 
العصرية التي توسع نطاق ذلك وتذلل عقباتهء كالبرامج الحديثة التي تعين على 

الوقوف على المعلومات بأسرع cody‏ وعلى وجه فيه دقة .]١[‏ 


ويقدر عدد المخطوطات العربية والإسلامية اليوم بثلاثة ملايين مخطوطة. 
تتطرق العربية منها إلى موضوعات شتّىء إذ تتسع دائرة عناوينها لتشمل كافة 
مجالات العلوم الإنسانية تقريبّاء بينما تحتوي المخطوطات الإسلامية على نصوص 
بعدّة لفات - إضافة إلى GDI‏ العربية - كالفارسية والتركية العثمانية والأوزبكيّة 
وغدة لغات أخرى. هذاء وتوجد مجموعة ضخمة من المخطوطات والوثائق 
الإسلامية والتاريخية 2 المكتبات والمتاحف العالمية يجري حاليا مسحها وتخزينها 
رقميًا - لأغراض الحفظ وتيسير الحصول عليها من قبل الباحثين والمهتمين ب 
جميع أنحاء العالم - من خلال المكتبات الرقمية المتوفرة على الشبكة العنكبوتية 
الإلكترونية (الإنترنت). لا كانت المخطوطات الأصلية بين يدي الباحثين ولا سيما 
مجاميع المخطوطات. كانوا على مقدرة من معرفة عمر المخطوط بنوع الورق 
والحبرء وتحديد اسم الناسخ الذي يكون مسجلا 2 آخر المجموع غالبّاء فلمًا توزعت 
رسائل المجموع بالتصوير الضوئي فقدنا أسماء الناسخ 2 عدد من الرسائل ما عدا 
الأخيرة من المجموع؛ مما يدعو إلى الحاجة إلى استخدام التقنية # التعرف على 
ناسخي هذه الرسائل. 


المخفية 2 مكتباتنا. وقد al‏ حافظي زهير .2 مقاله "دور تكنولوجيا المعلومات 
2 حفظ المخطوطات العربية" [Y]‏ بذكر بعض التجارب الرائدة ‏ استخدام 


VN 


النظم الآلية 2 معالجة المخطوطات dy pall‏ وإتاحتهاء مع ذكر متطلبات رقمنة 
المخطوطات وخصوصياتها ومواصفاتها. ومع هذه الجهود ULB AS LM‏ مجرد 
عرض صور من المخطوطة لا يعد OY LIS‏ الصور غير قادرة على نقل العديد من 
do cs spa Cea sa A ca Shoal‏ وتات 
ومحتوى الصورء والكتابة والخط» وذكر تاريخ ومكان كتابة المخطوط بفهرس قابل 
للبحث فيه؛ وغيرها من المعلومات الهامّة. لذاء فينبغي ألا يكون الهدف الرئيسي 
من رقمنة الوثائق التراثية مقتصرًا على توفير صور المخطوطات والوثائق فحسب» 
ولكن على توفير وصف لمحتوى المخطوطات يتميز بالدقة والشموليةء وكذلك على 
توفير نصوص المخطوطات لكي يتنسى للباحثين 4 المستقبل البحث 4# صور 
المخطوطات بسهولة ويسرء والعمل على توفير الترجمة ( الآلية) لهذه النصوص 
لتذليل العلوم الإسلامية والعربية لسكان العالم أجمع. 


نظرًا للتطورات الأخيرة ع علوم الحاسب الآليء وخاصّة علم التعرف على 
الأنماط (Pattern Recognition)‏ , فقد أصبح من الممكن لهذه العلوم خدمة 
باحثي التراث العربي والإسلامي بصورة كبيرة. نذكر تاليا eal‏ هذه العلوم وطرق 
إفادتها لباحثي العلوم الإنسانية: ْ 


أ. التعرف على النصوص المكتوبة (Automatic Text Recognition) Lf‏ : 
إلكتروني مما يتيح البحث فيه» والتعديل عليهء وطباعته ونشره إلكترونيًا ضمن 
عدد من العمليات المفيدة. ولا شك Í‏ برمجيات التعرف على النص المكتوب V‏ 
os dy a‏ الأمون] نت Mi Lal aglall 3. cn Ss LT aa‏ سك Ades (50 Saas‏ 
النسخ والتفريغ اليدوي للمخطوط التي قد تستغرق الأيام أو الأشهر والسنين. وهي 
ميزة تفوق الوصف 2 تيسير علم البحث 2 المخطوطات. ولك أن تتصور كم 2 هذا 


من تذليل للعلوم إن توفر البحث 4 قاعدة بيانات تضم عددًا ضخمًا من الصور 
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2 وخاصّةٌ إن استطاعت هذه العملية الآلية التفوق على نتائج التفريغ اليدوي‎ «Lf 
تعتمد عليه نتائج هذه البرمجيات 2 نجاحها دقة نتائج برمجيات‎ Lag الدقة.‎ 
تحليل صور الوثائق ومعالجة اللغة الطبيعية.‎ fie أخرىء‎ 


ب. البحث عن صور الكلمات (Word Spotting)‏ : 

كشيرًا ما يحتاج الباحثون 2 العلوم الإنسانية إلى البحث عن كلمة أو جملة 
محددة 2 المخطوط دون معرفة نص المخطوط بأكمله؛ أي دون أن تضطرّهم 
لقراءة المخطوط بأكمله أو التعرف على نصه UT‏ للبحث Loe‏ يحتاجون. ولتطبيق 
هذه العملية نستخدم صورًا للكلمة أو الجملة المراد البحث عنها ونستخدم برمجيات 
علم التعرف على الأنماط للبحث عنها وتحديد مكانها 2 المخطوط. 


ج. تحليل صور 8505511( (Document Image Analysis)‏ : 
يهدف ele‏ تحليل صور الوثائق إلى تحليل صور المخطوطات التراثية ووصف 
هذه الصور للمساعدة 2 علوم أخرى. فعلى سبيل «JUL‏ تستطيع برمجيات تحليل 
صور الوثائق التعرف على مواقع الفقرات الكتابية 2 الصفحة وتحديد إحداثيات 
محيط هذه الفقرات» كما تقوم بتقسيم الفقرات إلى أسطر منفردة لتجهيزها 
للتعرف الآلي على الكتابة:؛ بالإضافة إلى تحديد الرسومات (مثل الأختام أو 
الأشكال) ‏ صور الصفحات مع وصفها وصمًا مفيدًاء والكثير من الأمور الأخرى 

التي تساعد برمجيات التعرف على الأنماط. 
د. معالجة اللغة الطبيعية (Natural Language Processing)‏ : 
يستخدم علم معالجة اللفة الطبيعية قواعد اللفة العربية ونتائج التحليل 
الإحصائي للنصوص الإسلامية 2 تمكين أجهزة الحاسب الآلي من فهم نصوص 
الوثائق التراثية واستكشاف العلاقات والأنماط المفيدة: وهو من العلوم المساعدة 
المهمّة 2 علم التعرف على الأنماط. فعلى سبيل «JE‏ مسد برمجيات معالجة 
اللغة الطبيعية 2 تحسين دقة نتائج التعرف على الكتابة f‏ 


vr 


ه. التعرف على الناسخ والتحقق منه Writer Identification and)‏ 
Verification‏ ( : 

تعنى عملية التعرف على الناسخ أو الخاط بتحديده آليّا من مجموعة من 
النشاخ من خلال تحليل عينات من صور خطوطهم ضمن قاعدة بيانات لخطوط 
النسّاخ. كما تعني عملية التحقق من الناسخ التأكيد الآلي لصحة نسبة المخطوط 
لناسخ معّين من خلال مقارنتها مع عينات سابقة لصور خطه. مما قد يعطي قيمة 
علمية للمخطوط كأن يكون الناسخ ممن عرف بفن معين فيسهل على الباحث 
التعامل مع المخطوط ب فهم النص وتوجيه عبارته من خلال ما عرف من منهج 
i a Lil‏ 2 منسوخاته أو منهج المؤلف ب2 مؤلفاته ARS Lal‏ وتزيد أهمية هذا البند 
2 الاهتداء لاسم الناسخ أو المؤلف فيما عُثر عليه من مخطوطات ناقصة الأول 
والآخر؛ فيتم التعرف عليه من خلال وجود قاعدة ضخمة من صور المخطوطات - 
التي عرف اسم ناسخها أو مؤلفها - تعرض على إثر بعضها فيظهر اسم الناسخ 
او المؤلف» وقد wigs‏ هذا العلم - بدلا من تحديد اسم الناسخ - بتحديد عصر 
أوقرن المخطوطء أو نوع الخط المستخدم 2 الكتابة. Lee‏ يساعد .2 تثمين قيمة 
المخطوطات الأثرية وكشف المزيف منها. 

GI‏ أحدث التقنيات حاليًا لا يمكنها التعامل مع المخطوطات والوثائق التاريخية 
2 البحث عن النصوص,. أو معرفة المحتوى: فضلا عن ترجمته بصورة ناجحة. لذا 
فلا بذ من بناء قاعدة بيانات رقمية ضخمة للباحثين تحتوي على الوصف المناسب 
لكل مخطوط بالإضافة إلى نصوص المخطوط. مع تجهيز الأدوات المناسبة للباحثين 
2 مجال علوم الحاسب الآلي والتي تساعدهم 2 بناء البرمجيات الخاصة بالبحث 
والتحليل والترجمة والتعرف على الأنماط Af‏ 


نقوم بتقسيم ما تبقى من هذا المقال على النحو التالي؛ نناقش 2 الفصل 
الشاني واقع فهارس المخطوطات الرقمية مع ذكر أبرز المؤلفات والمواقع المعنية 


ME 
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بفهارس المخطوطات العربية والإسلاميةء كما نخصص الفصل الثالث لذكر جهود 
الباحثين والمؤسسات 2 قواعد بيانات المخطوطات الرقمية؛ مع إيراد أبرز هذه 
القواعد وميزاتها وعيوبهاء ونذكر 2 الفصل الرابع الجهود المبذولة 2 محاولة 
جمع قواعد بيانات خاصّة بخطوط العلماء السابقين وناسخي المخطوطات. i‏ 
نقدم 2 الفصل الخامس مقترحًا لمواصفات قاعدة بيانات مستقبلية للمخطوطات 
الإسلامية والعربية وعرضها بالتقنية الرقمية. مع الخيارات والميزات التي تمكن 
قاعدة البيانات المقترحة من خدمة باحثي العلوم الإسلامية وعلوم الحاسب الآلي 
Madly Lee‏ يتم عرض النتائج والتوصيات 2 الخاتمة 2 الفصل السادس. 
Y‏ - فهارس المخطوطات الرقمية 

AUER ذيفنت كفي‎ ere RY MALES NUES ينه‎ ET 
وتوثيقهاء ثم تسجيلها 2 قوائم. أو بطاقات: أو كتب لحفظها. فيقوم المفهرس‎ 
بوضع كل ما يتعلق بالمخطوط من معلومات 2 هذه الفهارمس:؛ كعنوان المخطوط.‎ 
وعدد السطور 2 كل‎ Glog وتاريخ النسخ» وعدد‎ Ra E واسم المؤلف» واسم‎ 
صفحة؛ وحجم الورق» ونوع الورق» ونوع الحبر» وحال المخطوط, كما أنه يضع‎ 
اقتباسًا من بداية المخطوط ونهايتهء وغير ذلك من أوصاف يراها المفهرس. وهي‎ 
تختلف من مكتبة إلى أخرى. وقد ذكر صلاح الدين المنجد .2 كتابه "قواعد فهرسة‎ 
تاريخ فهرسة المخطوطات العربية والإسلامية؛ بالإضافة‎ [Y] المخطوطات العربية"‎ 
إلى بعض القواعد والأساليب المستخدمة 4 فهرسة المخطوطات.‎ 


ومع عدم توفر مصادر رسمية لعدد فهارس المخطوطات 2# Lat!‏ إلا إنّه 
Os‏ ديز Pus sata Tasas‏ الى xa‏ ات baec‏ أن Suus‏ 
الفرقان جمعت 2 كتابها 'المخطوطات الإسلامية 2 العالم' ما يزيد على خمسة 
عشر call‏ فهر سس للمخطوطات الإسلامية .]٤[‏ كذلك الفهارس التي جمعتها 
مؤسسة آل البيت للفكر الإسلامي 4# فهرسها الشامل وصلت إلى all‏ وستمائة 


Vo 


Tate 


جهود الباحثين المنشورة 2 جمع فهارس المخطوطات العربية والإسلامية 

تزخر المكتبات بمخطوطات التراث العربي والإسلامي 4 مختلف بقاع العالم 
اکا ف 183 2953 dal oca (ya Alga‏ الا of Uo raa Lain asas‏ 9381 تخطوطات 
مكتباتهاء إِمّا باللفة العربية Lely‏ بلغة الدولة AY‏ وقد قام الباحثون على مدى 
التاريخ بعدَّة محاولات لجمع هذه الفهارس؛ وذلك للتعريف بها وتسهيل عمل 
الباحثين والمهتمين بهذا العلم» نذكر على سبيل JÈU‏ كتاب "تاريخ الأدب العربي" 
ast [1]‏ المستشرق الألماني كارل بروكلمان: الذي صدر الجزء الأساسي منه بذ 
مجلدين Gale‏ ۱۸۹۸ و7١15‏ ثم تلته المجلدات الثلاثة الكبيرة أعوام: VATY‏ و۹۳۸٠‏ 
و1443 م. وقد يتصور الباحث للوهلة الأولى GI‏ هذه الموسوعة كتاب ‏ تاريخ «aM‏ 
بينما هي 2 الحقيقة سجل للمصنفات Ay yall‏ المخطوط منها والمطبوع. ومن هذه 
الجهود أيضًا كتاب "تاريخ آداب اللغة العربية" لجورجي زيدان[7].و"تاريخ 
التراث العربي" لفؤاد سزكين [A]‏ الذي طبع باللغة AGUS‏ ثم تولت جامعة 
الإمام محمد بن سعود ترجمته إلى Ain pall‏ وصدر منه عشرة أجزاء. كما قام 
السيد رزق الطويل 2 كتابه Aasia"‏ 2 أصول البحث العلمي وتحقيق التراث" ]4[ 
بتكريس قسم منه لذكر فهارس المخطوطات الإسلامية. وبالجملة:؛ óla‏ المؤلفات 2 
هذا الباب 7S‏ 43513 تصل إلى خمسين مؤلف وزيادة: نذكر 2 العناوين التالية 
أبرزها. ّ 
فهارس "معهد المخطوطات العربية" 

يعد معهد المخطوطات العربية واحدًا من أقدم المراكز المعنيّة بالمخطوطات 
2 الوطن العربي. تأسس المعهد سنة ۱۹١١‏ وهو ملحق بالمنظمة العربية للتربية 


كلا 
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والثقافة والعلوم مع تمتعه بشخصية معنوية مستقلة. يُعنى المعهد بالتراث العربي 
المخطوط بمختلف أصعدته؛ جمعًاء وإتاحة؛ وصيانة؛ وترميمًاء وفهرسة؛ وتعريقًاء 
A al ja‏ وتوظيةًا. للمعهد عدد من الإصدارات المهتمة بفهارمس المخطوطات 
العربيةء نذكر منها 'فهارسس المخطوطات العربية  Lal‏ . و" دليل مكتبات 
المخطوطات # الوطن og pall‏ وعدد من فهارس المخطوطات # دول العالم مثل 
gu pga"‏ مخطوطات جامعة الإسكندرية" وغيرهاء بالإضافة إلى مؤلفات فيصل 
الحفيان - مدير معهد المخطوطات العربية -. 


ولا شك Gi‏ من eal‏ مؤلفات المعهد ' فهرس المخطوطات المصّورة" D]‏ وهو 
فهرس للمخطوطات المصورة 2 معهد المخطوطات العربية ومقسّم حسب الفن من 
تاريخ» وعلوم: وعارف Ahle‏ وسيرة نبوية. وأدب» وفقه. وحديث. وتفسير. وقد 
تمت طباعة هذا الفهرس على عدّة مراحل زمنية تجاوزت خمسة عقود من (QA!‏ 
إذ تم طباعة المجلد الأول 2 عام 1508 م» ei‏ طبع آخر مجلد عام ٠١١١‏ م. وممًا 
يعيب مطبوعات المركز الانقطاع الطويل 2 أعمالهم: وعدم الاستمرارية -2 الجهود 
المبذولة. كما GF‏ المعهد من أوائل الذين تبتوا سياسة رقمنة المخطوطات والفهارس 
منذ عشرات السنين» ولكثنا لا نجد لهم برنامجًا متميرًا من إصداراتهم 2 هذا 


وللفائدة فقد نشر المعهد موقعًا باسم "خزانة المخطوطات" LV]‏ يذكرون 
فيه القدرة على البحث الرقمي عن المخطوطات التابعة للمعهد. وهو قيد التعديل 
والتجريب منذ فترةء ونتائجه غير مرضية. كما أن موقع المعهد على الإنترنت مليء 
بالروابط التي لا تعمل والمعلومات الناقصة. 
"المخطوطات الاسلامية 2 العالم" لمؤسسة الفرقان 

قامت مؤسسة الفرقان للتراث الإسلامي ] D Y‏ بعمل مسح وإحصاء شامل 
لمجموعات المخطوطات الإسلامية 2 أنحاء العالم شملت فهارس مئة وستة بلدان؛ 
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ثم نشرت نتائج هذه الدراسة 2 كتاب '"المخطوطات الإسلامية 2 العالم" بنسختيه 
الإنجليزية Dr]‏ والعربية [؛ ]. وتذكر الموسوعة دراسات حول عدد المخطوطات. 
واللغات التي كتبت بهاء كاللغة العربية والفارسية والتركية والأوردوية والسواحيلية؛ 
E ulti andi c Sls‏ كما عاولت الدواشة e gane‏ الت مهرسف: 
وعناوين الفهارس التي تم نشرهاء والتي لم تصدر بعد 4 تلك Lost)‏ إضافة 
إلى ذكر بعض عناوين نوادر المخطوطات. وقد ذكرت مؤسسة الفرقان أنها قامت 
بجمع هذا الكتاب مما يزيد على خمسة عشر Call‏ فهرس للمخطوطات الإسلامية. 
مع الإشارة إلى أن كتاب ' المخطوطات الإسلامية 4 العالم" هو أقرب لموسوعة 
تقوم بالتعريف بمكتبات العالم التي تحتفظ بفهارس للمخطوطات الإسلامية مع 
التعريف بهذه الفهارس» من كونها Legare‏ لفهارس المخطوطات كما هو حال 
"فهارس آل البيت" التي نناقشها تاليا - مثلا -. 


فهارس آل البيت 

ومن المشاريع المؤسسية المهتمة بحصر المخطوطات العربية الإسلامية استنادًا 
على الفهارس المطبوعة والمخطوطة للمكتبات العامة والخاصةء مشروع "الفهرس 
الشامل للتراث العربي الإسلامي المخطوط" الذي سبقت الإشارة إليه؛ والمعروف 
باسم "فهارس آل البيت" ]0[ إذ قامت بجمعه مؤسسة آل البيت للفكر الإسلاميء 
فخرج B‏ خمسة وعشرين مجلد. وقد اعتمدت المؤسسة 2 تحقيق هذا العمل على 
ما جمعته من الفهارس والمصادر والدراسات المختصة التي جاوزت الألف وستمائة 
yu pga‏ للمخطوطات S‏ سبع عشرة لغة. وقد قامت المؤسسة بطباعة المشروع 
على مراحل عدة حسب الموضوع؛ فطبعت فهرس مخطوطات التفسير وعلومه 2 
مجلدين: وفهرسس المصاحف المخطوطة ومخطوطات رسم المصحف 2 aba‏ 
وفهرمس مخطوطات الحديث النبوي الشريف وعلومه ورجاله .2 ثلاثة مجلدات. 
وفهرسس المخطوطات العربية ‏ مكتبة تشستربيتي 2 إيرلندا ‏ ثلاثة مجلدات, 
وفهرس مخطوطات التجويد 2 thes‏ وفهرس مخطوطات القراءات 2 مجلدء 
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وفهرس مخطوطات السيرة والمدائح النبوية 4 مجلدين» وفهارس مخطوطات الفقه 
وأضنولة 2 اق عشرة مجلد: وم كتخامة ae‏ مؤسسة آل ألبيت 2 فياوسهاء إلا 
لذ LEB ju‏ هله ens e‏ ال بعت يل dil‏ مو des LS Vl‏ من 
المؤسسة نفسهاء وآخر هذه المجلدات من الفهرس طبع قبل عشر سنين 2 عام ٠٠١5‏ 
م. ومن أبرز المآخذ على هذا الفهرس أنه لم يعتمد على مشاهدة المخطوطات التي 
تمت فهرستها؛ بل اقتصر على النقل من الفهارس الأخرى؛ مما أدى إلى استمرار 
gai donc oe EENT‏ الالخطوظ od‏ كير ss talos‏ > عنما امل 
ما ذكر 2 الفهارس الأخرى. 


وعلى الرغم من عدم فهرسة بعض المكتبات المخطوطاتها أو عدم نشر هذه 
الفهارمسء فإن الكثير من مكتبات العالم التي تحوي مخطوطات عربية وإسلامية 
صنعت فهرسًا LGB yy‏ مطبوعًا لهذه المخطوطات. لكنَّ ظاهرة رقمنة فهارس 
المخطوطات لا تزال محدودة جدًا؛ فالمكتبات ما زالت تعتمد على طباعة الفهارس 
ورقيًاء مما يجبر الباحثين على البحث اليدوي 2 هذه الفهارس.» فيستهلك منهم 
الكثير من الوقت والجهد» عدا عن ندرة بعض هذه الفهارس المطبوعة لقدمها أو 
نفاد المطبوع منها. ولذا al‏ عدد من المؤسسات بمحاولة جمع هذه الفهارس .2 
مطبوع موحد يسهل على المهتمين عملية البحث» وسنحاول ب2 هذا القسم التعريف 
بأشهر فهارسس المخطوطات الرقمية. وبالرغم من نشر هذه المجاميع لفهارس 
المخطوطات:. GLa‏ خروج غالب هذه المحاولات بصورة ورقية لا يزال يشكل عائقًا 
2 عملية البحث العلمي. 


الجمع اليدوي لفهارس المخطوطات 

من جهود رقمنة فهارس المخطوطات. قيام بعض المؤسسات والمواقع المهتمة 
بالتراث العربي والإسلامي بجمع فهارس المخطوطات المطبوعة ومسحها ضوئيًا 
ووضعها على صورة ملفات PDF)‏ أو (Word‏ على الشبكة الإلكترونية. ومع Si‏ 
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غالب هذه الملفات هي صور لصفحات هذه الفهارس» مما يعني عدم القدرة على 
البحث إلكترونيّ ا فيهاء إلا o]‏ بعضها قد تم تفريغه إلى نص إلكتروني. Lay‏ آليّا أو 
يدويًا أو Ulf‏ قد تمت مراجعته ÓL guy‏ هذه الخطوات - وإن كانت أولية .2 رقمنة 
YI — i gat‏ اها dels ge‏ 3 الغيارين Aeg atl‏ القديمة وصرورية eB SS‏ 
فهارس المخطوطات LIS‏ ولن تكون تامة حتى يتم تفريغها كلهاء وتدقيقها. ووضعها 
Ligas pile QE daas leg Ss aeta Le wales‏ جه ترق 
الإلكتروني ل مركز ودود للفهارس وكتب التحقيق" [YE]‏ وفهارس المخطوطات 
المجموعة 4 برنامج المكتبة الشاملة" ]36[ وموقع "جامع المخطوطات 
الإسلامية" ]10[ وبعض المنتديات الإلكترونية المهتمة بالعلوم الشرعية [rd‏ 


قواعد فهارس المخطوطات الرقمية 

وبعد أن وقفنا على أهم الجهود 2 جمع فهارس المخطوطات الإسلامية 
المطبوعة وتصويرها ضوئياء نذكر هنا قواعد فهارمس المخطوطات الرقمية. وهي 
خطوة أساسية 2 رقمنة المخطوطات, إذ تسمح هذه القواعد بالبحث 2 حقول 
بطاقة كل مخطوط على Bue‏ مثل اسم المؤلف وعنوان المخطوط وسنة النشر 
وغيرها من المعلومات» إلا S|‏ هذه الفهارس تفتقر عادة إلى خدمة تصفح صور 
المخطوطات أو تحميلها. 
مكتبة الفرقان الرقمية 

من هذه القواعد نجد مكتبة الفرقان الرقمية [17 ] إذ يسمح الموقع الإلكتروني 
بالبحث 2 المخطوطات. إلا S|‏ واجهة البحث lbs‏ تعمل باللغة الإنجليزية (يذكر 
الموقع أن الواجهة العربية تحت التطوير) ولا شك أنَّ الموقع بحاجة إلى إضافة الكثير 
من المخطوطات ليصبح مرجعًا معتبرًا .2 البحث الرقمي 2 فهارس المخطوطات, 
EE)‏ الوق آنه يحوي قيار 00 :ا طط stall Fas‏ 2 اردنا يحو 
الموقع الكثير من الخيارات التي تمكن الباحثين من البحث حسب المؤلف» والموضوع, 
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والكفينة A ado‏ االخطوظوعيرها مت els LS Buell ed all‏ نتافم E‏ 
معلومات المخطوط بطريقة منظمةء مع فرز كل جزء من بطاقة المخطوط ( العنوانء 
اسم المؤلف, اسم الناسخ, us‏ بحقل متفرد» مع إمكانية ربط بعض هذه الحقول 

إلكترونيًاء LS‏ يظهر 2 رسم توضيحي .١‏ 
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موقع يوسف زيدان الإلكتروني 

يقوم موقع يوسف زيدان الإلكتروني DIA]‏ بتوفير قاعدة بيانات لفهارس 
المخطوطات ٠‏ ويتيح للمتصفح البحث فيهاء ويحوي هذا الموقع مجموعة قليلة من 
فهارمس المخطوطات العربية والإسلاميةء وهي: فهرس مكتبة رفاعة الطهطاوي 
(قرابة ۱۸٠١‏ مخطوطة) . وفهرس المخطوطات العلمية بمكتبة بلدية الإسكندرية 
£V)‏ مخطوطة)؛ وفهرس مخطوطات شبين الكوم ) YO:‏ مخطوطة) ‏ وفهرس 
مخطوطات الفقه بمسجد أبى العباسس المرسى /٠١(‏ مخطوطة)؛ وفهرسس 
مخطوطات المعهد الديني ٠١4( AS gaza‏ مخطوطة)؛ وفهرسس مخطوطات دار 
الكتب بطنطا ££V)‏ مخطوطة) . ويظهر رسم توضيحي Y‏ نظام البحث -2 فهارس 
المخطوطات -2 موقع يوسف زيدان. 


فهارس المكتبات الخطية 


إشاسة : 


يشتمل هذا الباب من ab gall‏ » على فهارس وصفية ALIS‏ لمكتبات خطية مهمة . 
ويمكن البحث فى محتوى هذا الباب e‏ بكلمة من عنوان المخطوطة › أو كلمة من اسم مؤلفها » 
أوكلمة من بدايتها أو موضوع المخطوطة أو رقم حفظها 


رسم توضيحي Y‏ : صورة توضيحية لنظام البحث 4 موقع يوسف زيدان. 
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الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


"خزانة التراث"' لمركز الملك فيصل 

كما قام مركز الملك فيصل للبحوث والدراسات الإسلامية بالرياض 2 العام 
7 م بإنشاء قاعدة بيانات باسم "خزانة التراث" ]14[ تشتمل على فهارس 
المخطوطات الإسلامية 2 جميع المكتبات والخزانات ومراكز المخطوطات 2 
العالم» حتى بلغ عدد عناوين هذه المخطوطات أكثر من مائة وعشرين ألف. تتضمن 
خزانة التراث فهارس مخطوطات عربية وإسلامية من مختلف أنحاء العالم» 
بالإضافة إلى فهارس لمخطوطات مكتوبة بلغات أجنبية ترجمها المركز إلى العربية. 
كما يوفر البرنامج مداخل بحث متعددة يستطيع الباحث من خلالها الوصول إلى 
المعلومة التي يريدها بكل يسر وسهولةء مثل البحث 2 الفن» 2g‏ عنوان المخطوط, 
والعنوان الفرعيء و2 اسم المؤلف» واسم الشهرة, وتاريخ الوفاة:» وقرن الوفاة, 
واسم LOST‏ واسم الدولة. واسم المدينةء ورقم الحفظ. ويظهر رسم توضيحي 
e Y‏ 35 ور لشاشات ald‏ خزانة الترات .ومن Jil‏ عيوب ül eral pi‏ 
cul nd‏ — مخ تنو نه ا amy Vail m‏ إلا ote‏ نظام تشعيل اتور «daz‏ 
dil;‏ لم يتم تحديثه منذ سنين» مما يحدّ من استخدام البرنامج على أكثر الأجهزة 
الحديثة. 
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ELELELELEL EL LEC ELL EE E LL 


DNA 08‏ 
رسم توضيحي LY‏ عدّة 1942 توضيحية لشاشات برنامج "خزانة التراث'. 
'خزانة الماجد للتراث" لمركز جمعة الماجد 
ومن البرامج المميزة 2 فهارسس المخطوطات برنامج '"خزانة الماجد للتراث" 
RON‏ المصمم من قبل شركة الدار العربية لتقنية المعلومات للتعريف بمخطوطات 
مركز جمعة الماجد للثقافة والتراث والبحث فيها. يحوي البرنامج أشمل قاعدة 
بيانات إلكترونية لمخطوطات مركز جمعة الماجد. تذكر بطاقة المخطوط عنوان 
الملخطوطة. والعنوان ca tells ral‏ والناسخ» وبدايتها ونهايتهاء والملاحظات 
المتعلقة بالمخطوطةء وعدد الأوراق» واللغةء ويظهر رسم توضيحي ٤‏ مثالا لإحدى 
بطاقات المخطوطات ب البرنامج. ويقدم البرنامج خدمة البحث عن أي مخطوطة 
وذلك بالإشارة إلى ما يراد البحث فيه من العنوان أو العنوان البديل أو بداية 
المخطوط أو نهايته أو عن طريق مؤلفه أو ناسخه أو جميع ما سبق» مما يتيح للباحث 
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الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


سرعة الوصول للمخطوطة المطلوية. إلا إِنَّ هذا البرنامج كسابقه -برنامج '"خزانة 
الشبكة العنكبوتية العالمية مما يحد فعليًا من فائدته؛ لغياب التحديثات له. 


iata وام‎ 

beech 

Figg Bae 

tis ol) Athy crated [Ast 


رسم توضيحي Í‏ : صورة توضيحية لبطاقة مخطوط 2 برنامج "خزانة 
الماجد للتراث". 


فهارس مخطوطات مكتبة المسجد النبوي 

E gal pag‏ 3 زقسة كا رسن الخطوظاف aul 1 a5 o‏ اناه 
لشؤون المسجد الحرام والمسجد النبوي» إذ قاموا برقمنة فهارس مخطوطات مكتبة 
المسجد النبوي وتوفيرها للباحثين على شبكة الإنترنت ] [v1‏ تقوم المؤسسة دوريًا 
بإضافة بطاقات للمخطوطات. و2 زيارة حديثة للموقع تم حصر فهارس 177١‏ 
مخطوطا. يسمح الموقع بالبحث 2 all‏ 2-5 عنوان المخطوط؛ 2g‏ أول المخطوط 
وآخره» أو 2 جميع بيانات المخطوط السابقة. ويظهر رسم توضيحي 0 مثالا للبحث 
ك موقع مكتبة المسجد التبوي. ads‏ الموقغ إلى قوع مجالات البحث: كما aX‏ 
بطاقات المخطوطات إلى الشمول» Ling‏ نقص 2 كثير منها. إلا إِنَّ الاستمرار 2 
تحديث هذا العمل وتحسينه قد يجعله من المراجع الرئيسة 2 فهارس المخطوطات 
الرقمية 2 المستقبل. 


^o 


edades i9, 
خدمات المكتبة والباحثين‎ 


iilis EE‏ خدمة البحث بفهارس المخطوطات 


S=‏ إختر AA‏ الكل ب 
الكل 10 
dual‏ » 
إسم المخطوط | (caer) «s‏ 
أول المخطوط | أن فرت علو 


آخر المخطوط تعد سب 
تاب الدمعه lelas‏ 


أبواب السعادة هي olea]‏ الشوادة 


امسن اليلب في الجواب عن be Jal sul‏ 


المقامة الهصزية في Mg!‏ 


رقم الحاسب* _ 8970 
byw! >i‏ 
وحسبنا ‏ وعم الوكيل - أخيرنا الحافظ أو ano). sill‏ بن محمد السلفي. | aig‏ الضرب يبن يديك باتسيف دليل على Mee‏ لك عن أحب نبا الا عنة 
الأصهاني قان؛ أخرنا ... أن عبد الله القاسم س à acl bbe a jai‏ ونب عنه .. 


رقم الحلب: 8970 


ناسح المخطوط سلة النسخ | &xj3‏ الت أعدد الأوراا Upp‏ | عرض الأ PET‏ 


رسم توضيحي ه : مثال لخدمة البحث بفهارس مخطوطات المسجد النبوي. 

وللقارئ مراجعة موقع جامعة ميتشغان الأمريكية للمزيد من المؤلفات والمواقع 
المعنية بفهارمس المخطوطات والإسلامية. إذ قاموا بفهرسة مجموعة كبيرة من 
روابط فهارمس المخطوطات الإسلامية الرقمية حول العالم ] EYY‏ مع توصيف 
مختصر لها. ونحن سنخصص الفصل القادم لذكر جهود الباحثين والمؤسسات 2 
قواعد بيانات المخطوطات الرقمية؛ مع إيراد أبرز هذه القواعد وميزاتها وعيوبها. 
ومن الجدير بالذكر SI‏ قواعد البيانات الإلكترونية للمخطوطات تعد كذلك فهرسًا 
لهذه المخطوطات» فمن الممكن إضافة كل ما سيذكر 2 الفصل القادم ضمن 
قهارئن الخطوطات Aad yl!‏ 2 هذا الفسيل: 
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Y‏ . قواعد المخطوطات الرقمية 

اختلف الباحثون 2 تقدير عدد فهارس المخطوطات العربية والإسلاميةء كما 
اختلفوا 2 تقدير عدد المخطوطات نفسها. ويرجع هذا الاختلاف إلى عدّة أسباب» 
أهمّها عدم وجود مؤسسة رسمية تعنى بإحصاء دقيق ودوري لهذه المخطوطات. 
كذلك من الأسباب عدم الاتفاق 2 تحديد ما يراد إحصاؤه؛ فهل يراد حصر 
المخطوطات الإسلامية بلغاتها المختلفة أو إدخال المخطوطات العربية بعلومها 
كافة5 وأيضًا الاختلاف 2 تحديد القرون المراد إحصاء مخطوطاتهاء ووجود عدد 
من المخطوطات ذات الملكية الخاصّة أو المخطوطات المفقودة أو المسروقة التي لا 
يمكن إحصاؤها إلى غيرها من الأسباب التي تجعل التفاوت -حتى ج الأرقام 
التقديرية للمخطوطات- كبيرًا بين المصادر المختلفة. فمنهم من يقدّرها بمليوني 
مخطوطة. أو ثلاثة ملايينء ومنهم من يوصل عددها إلى خمسة ملايين مخطوطة, 
مع شبه اجماعهم على o‏ عدد المخطوطات العربية والإسلامية بالملايين. ويذكر 
الباحثون أنَّ أكثر هذه المخطوطات 52 7٠١.٠٠١ ( LS‏ إلى (Yo scr‏ كما 
يقدّرون أن إيران والهند واليمن يملكون مات الآلاف من المخطوطات كذلك ] [vy‏ 
و الدول ia pall‏ فقد انتشر مؤخرًا 2 الجامعات والمؤسسات التعليمية الاهتمام 
بجمع المخطوطات الأصلية وفهرستهاء فعلى سبيل المثال تقدّر عدد المخطوطات 2 
جامعة الملك سعود 2 المملكة العربية السعودية بأكثر من call YV‏ مخطوطة أصلية 
ومصورة. glis Lal‏ المخطوطات المصورة؛ فقد بدأت تظهر جه ود أفراد يملكون 
عشرات أو مئات الألوف من المخطوطات. 


الجمع اليدوي للمخطوطات 

يقوم بعض الباحثين والمهتمين بالمخطوطات بالمسح الضوئي لهذه المخطوطات 
Lad yg all e eg‏ مواق عى cà iM E‏ تراك ule‏ شيل (gis SLAM‏ سوق 
"جامع المخطوطات الإسلامية" [V0]‏ وموقع "مركز ودود للفهارمس وكتب 
التحقيق" [v6]‏ وقسم المخطوطات ب موقع Jal pile‏ الحديث" [vo]‏ وقسم 


AV 


cm mE. wr] en ene 
مما يقلل‎ OE 0 وليست‎ m MA ER 
من فائدة هده المخطوطات 2 البحث العلمي.‎ 


جهود الباحثين 2 علوم الحاسب الآلي 2 رقمنة المخطوطات 

من اهتمامات الباحتين 2 علوم الحاسب الآلي تطوير البرمجيات المختلفة 
المعنية بخدمة المخطوطات العربية والإسلامية. إذ من الممكن استخدام قاعدة 
البيانات 2 مجال التعرف الآلي على نصوص المخطوطات,. وك تحليل ومعالجة 
صور صفحات المخطوطات s LE‏ والتعرف الآلي على مواقع الكتابة والرسومات 
والصور والجداول وغيرها وتقسيم صور المخطوطات آليًا إلى مناطق أو أجزاء 
وتوصيف هذه الأجزاء. كما يقومون بتطوير أساليب البحث الآلي النصي 2 
صور المخطوطات التي تم مسحها ضوئياء والتعرف على كلمات صور المخطوطات 
Lal‏ بالإضافة إلى تطوير أساليب التعرف الآلي على خط الناسخ» والتأكد منه 
2 المخطوطات العربية والإسلامية. إلا OL‏ تطبيق هذه العلوم بحاجة إلى قاعدة 
بيانات للمخطوطات بمواصفات خاصة ستتم مناقشتها 2 الفصل الخامس. لذا 
قام بعض الباحثين 2 علوم الحاسب الآلي بمحاولات فردية لبناء هذه القواعد, 
نذكر ك الفقرات القادمة أمثلة عليهاء ولكن من الملااحظ o]‏ هذه الجهود عادّة ما 
تخدم جانيًا ما 2 علوم الحاسب الآلي مع عجز 2 خدمة جوانب تيا DUCIT see‏ 
الكثير منها يحوي عددًا قليلا جدًا من المخطوطات. بل S]‏ الكثير منها لا يتجاوز 
جهده المخطوط الواحد فقط. 


من الأمثلة على هذه الجهود والمحاولات ما قام به قسم علوم الحاسب الآلي 
وتقنية المعلومات 2 جامعة مالاي [ye]‏ 2 ماليزيا إذ جمعوا ١79‏ مخطوطة 
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بالإضافة إلى توفير قاعدة البيانات لهذه المخطوطات على cci yl‏ إذ ald‏ 
الباحثون بتوفير البيانات الوصفية المناسبة لكل مخطوطة باستخدام مبادرة ترميز 
النصوص [vv] (TEI)‏ التي ستتم مناقشتها بتفصيل 2 الفصل الخامس. 


2 حسين نفشي وزملاؤه 2 مختبر سينكروميديا التابع لجامعة كيوبيد‎ Lal 
صورة من صور المخطوطات التاريخية والكتب التراثية‎ YO فقد جمعوا‎ [YA] كندا‎ 
الفارسية كانت 2 خزانة السجلات التاريخية والوثائق والمخطوطات القديمة‎ 
لميرزا محمد كاظميني 2 يزد إيران. ويظهر 2 الصور المجموعة آثار الرطوية‎ 
2 والطممس والتلاشي ونزيف الحبر نظرًا لتقادم الزمان. ومع قلّة عدد الصور‎ 
الباحثين يأملون أن تكون هي النواة الأولى 2 سلسلة من قواعد‎ Sb قاعدة البيانات‎ 
البيانات التي توفر صور المخطوطات؛ للمساهمة 4# علم تحليل الصور والوثائق‎ 
الإلكترونية والتعرف على نص الكتابة والكاتب.‎ 

كما ald‏ الباحثون رضا atte‏ وزملاؤه 2 مختبر سينكروميديا وجامعة ماكفيل 
2 كندا بتقديم قاعدة بياناتهم المسماة "ابن سينا" [YA]‏ وأدخلوا فيها مخطوط 
كشف التمويهات # شرح التنبيهات' من تأليف سيف الدين أبي الحسن علي بن 
أبي علي بن محمد بن سالم الآمدي (BV)‏ وهي تحوي ردا وتعليقًا على شرح 
الرازي لكتاب الإشارات لابن سينا. تتكون قاعدة البيانات هذه من 0١‏ صفحةء 
قام الباحثون باستخراج 7١777‏ جزءًا من كلمة عربية منها. تم التعرف على نص 
المخطوط GÍ‏ والتحقق من نتائج التعرّف يدويًا. يظهر رسم توضيحي 5 أمثلة على 
جهود الباحثين 2 علوم الحاسب الآلي المذكورة سابقًا 2 رقمنة المخطوطات. 


۸۹ 


)1( جامعة مالايا (ب) حسين نفشي (ج)رضا مقدم وزملاؤه 


Ya YA وزملاؤه‎ Y. 
رسم توضيحي : صور لبعض ال مخطوطات من قواعد بيانات رقمية من‎ 
علوم الحاسب الآلي.‎ B قبل باحثي‎ 


جهود المؤسسات والجامعات 2 رقمنة المخطوطات 

تتابعت 2 الآونة الأخيرة عدد من المؤسسات والجامعات على بناء قواعد 
بيانات رقمية ضخمة للمخطوطات العربية والإسلامية تميزت باحتوائها على 
مات أو آلاف المخطوطات» مع توصيف لهذه المخطوطات. وإمكانية البحث 2 
الحقول المختلقةء وتصمّح صور المخطوطات. ورغم أهمّية هذه الخصائص 2 
celi‏ البياتات ae TE‏ إلا إن das SUL‏ أن هذه الحهود مجه ةة الآضل قاح 
العلوم الشرعية مع عدم آخذ باحثي علوم الحاسب الآلي بعين الاعتبار. Lond‏ 
يعيب هذه القواعد عدم اكتمال وصف كثير من المخطوطات أو عدم تدقيق ذلك 
او els Jae cule gf Die goal ad‏ اض الي 
أو توصيف لأجزاء الصفحات المختلفة. كما o]‏ كثيرًا من هذه المواقع لا تسمح 


4. 
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Estat ris‏ ات i odo daas es ea‏ ت ات 
أو الآلاف) التي يحتاجها باحث علوم الحاسب الآلي ف برمجياته5!كما Ól‏ كثيرًا 
المخطوطات والوتائق التاريخيةء وعلى الكثير منها علامات مائية كبيرة الحجم 
تؤثر على صورة المخطوطء مما يؤكد الحاجة إلى إعادة تصميم قواعد البيانات 

هذه لخدمة الباحثين 2 العلوم المختلفة على أفضل وجه ممكن. 


وهنا تظهر مدى الحاجة 2 ربط تواصل بين المبرمج والباحث -2 العلوم 
الإنسانية والشرعية؛ وهوعمل لا يتم إل بوجود تعاون بين مؤسسات تعنى بعلوم 
البحث التراثي بالتعاون مع مبرمجين أكفاء يؤمنون بسمو الهدف وثمرته الحقيقية, 
وهذه المؤسسات كثيرة 2 بلادنا العربية ولكنها تفتقر إلى تنظيم يجمع آليتها 
ويجمع جهودها. 


نظام المخطوطات (جامعة SUL)‏ سعود 

سعود 2 المملكة العربية السعودية [١؟].‏ وهونظام قامت بإنشائه جامعة الملك 
أكثر من إاحدى عشرة ألف مخطوطة. ويستطيع المستخدم تصفح calle gla zt‏ 
وقراءتها ومعرفة بعض المعلومات التفصيلية عنها من مؤلف وعدد صفحات وغير 
ذلك. ومن مميزات هذا النظام C]‏ خدمته تعمل على شبكة الإنترنت Les‏ يسمح 
للمستخدمين بالدخول من آي مكان. كما Ol‏ واجهة المستخدم تدعم اللغتين العربية 
والإنجليزية. 
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للباحثين والمهتمين بتفريغ نص المخطوط وإرساله إلى نظام المخطوطات؛ لمراجعته 
حتى يتمكن توفير خدمة البحث 2 نص المخطوط ‏ المستقبل. لذا يمتلك نظام 
المخطوطات 2 جامعة الملك سعود عددًا من المقومات اللازمة للباحثين -2 علوم 
الحاسب الآلي لتطوير بحوثهم 2 خدمة المخطوطات العربية Ayo ul‏ لكنه 
بحاجة إلى عدد من التعديلات والتصحيحات لجعله ملائمًا لهذه الأبحاث. 


E‏ جاسصعة 
Be‏ الملك سعود 


King SaudUniwersty Wo 


لصفحة الرئيسية | ستعرا 


مخطوطات > الاذثيارات > الصفحة رقم 6 


عنوان المخطوطة: الاختيارات أول السابق ١‏ ° !120 التالي آخر 
رقم الصنف؛ 12175 ل Á‏ —=— " 
الموّلف: ابن plalll‏ « على بن محمد , 1 1 

الرقم العام: 529 


التاريخ المقترن بإسم المؤلف: -803 ه 
المراجع: معجم المؤلفين 7 : 206 

الوصف: نسخة جيدة , تسخ aligo‏ , بها undi‏ 

الوصف المادي: 121 G‏ 22 س ؛ 21 = 15 سم 
الموضوع: المذهب الحتبلي 2- فقه المذاهب الاسلامية 
الإحالات: | - المؤلف ب - تاريخ النسخ 

اسم الثاسة: 

تاريخ النسخ: 1232 2 


AS‏ احصل على الصفحة بصيفة بي دي إف 
ad‏ هذه المخطوطات هي خذمة مقدمة من جامعة cllall‏ سعود تهدف لخدمة الباحتين وتوفير آلية للحصول على المخطوطات plill‏ يطريقة سهلة وميسرة 


gayi‏ استخدام هذه الخدمة بطريقة معتدلة ومسؤولة. 


pala‏ فى خدمة الباحتين بتحويل الصورة إلى (p‏ مكتوب قابل للبحت 
رسم توضيحي V‏ : صورة توضيحية لنظام المحطوطات 2 جامعة الملك سعود. 


وبالرغم من توفر هذه المقومات 2 نظام المخطوطات التابع لجامعة الملك 
سعود. إلا إن الوضع الحالي للنظام لا يسمح للباحثين باستخدام المخطوطات 
العربية والإسلامية. إذ يسمح النظام حاليًا فقط بتصدير كل صفحة من المخطوط 
على ca pail‏ ولا يسمح بتصدير المخطوط بأكمله فضلا عن تصدير مجموعة من 
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SNe avery Rly emery Breen orci إن‎ 15658 22] aas ds eic 
نقطة لكل إنثس) مقارنة بالمعايير المتبّعة 2 مسح المخطوطات والوثائق التاريخية‎ 
يؤثر على قابلية استخدام هذه الصور 2 الأبحاث‎ Lee نقطة لكل إنش)‎ t+) 
القائمين عليها قاموا بإضافة علامة مائية كبيرة الحجم تؤثر‎ ŠÍ العلمية؛ ناهيك‎ 
Čj وممًا يلاحظ أيضًا‎ A على الكتابة# المخطوط كما هو مبين 2 رسم توضيحي‎ 
و2 أحيان كثيرة تنقصها بعض البيانات‎ à LES المعلومات المقدمة عن المخطوط‎ 

quatit aate 


رسم توضيحي 8: مثال على صور إحدى المخطوطات من قاعدة بيانات جامعة الملك سعود. 


مجموعة المخطوطات الاسلامية لجامعة ميتشغان 

ومن جهود الجامعات 2 توفير قواعد بيانات إلكترونية للمخطوطات. نذكر 
Legere‏ المخطوطات الإسلامية" 2 جامعة ميتشغان الأمريكية [vv]‏ تملك 
الجامعة aodio qe baa CT yan al ES E Eben ١/46‏ 


ay 


الإلكترونية - إلى تاريخنا الحالي — وتوفيرها مجانًا للباحثين والمهتمين؛ كما 
يسمخ Amo (ana alil‏ من المخطوط أو الخطوظ كاملا ALL,‏ إلى عرض 
is ng‏ لكل مخطوط ( رسم توضيحي 5( مع إمكانية التبرع بإضافة الفهارس أو 

نص المخطوط. تتميز مجموعة المخطوطات الإسلامية بوضوح صور المخطوطات 
وجودتهاء كما ol‏ العلامة المائية موضوعة خارج إطار صفحة المخطوط؛ فلا تؤثر 
Adal! sles e‏ بالتخطوط:وممًا بها عدم شمؤلية بطافات اطوط LoS‏ 
coL all i]‏ المحملة تكون بصيغة (PDF)‏ بدلا من صيغ الصور المناسبة للأبحاث 
العلمية (JPG, TIF, PNG)‏ ومن الجدير Ol» Sill‏ موقع مجموعة المخطوطات 
الإسلامية 2 جامعة ميتشغان على الشبكة الإلكترونية يحوي العديد من المعلومات 
القيمةء والقوائم المفيدة 2 اللفة الإنجليزية للمهتمين بأبحاث المخطوطات 
الإسلامية والعربية؛ مثل البحث عن المخطوطات 2 الفهارس» وقائمة بأسماء 
فهارس المخطوطات. وفهارس المخطوطات الإلكترونية وقواعد البيانات الإلكترونية 
للمخطوطات الإسلاميةء إضافة إلى العديد من الدراسات المهتمة بالخط العربيء 
elt ua S‏ الأخرى اني quil Mag Glad Lat‏ 


- 1 رن ريعب دالوا‎ sail 
و وجرا وهف‎ EX oo gn 


= ak A eati «الرساه هما‎ 

--- 7. Te TRE UH OPE] 

رسم توضيحي 1 مجموعة المخطوطات الإسلامية i‏ جامعة ميتشغان 
الأمريكية. 
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يلاحظ من الأمثلة السابقة مدى اهتمام المؤسسات والمكتبات والجامعات 
مؤخرًا ‏ تملك المخطوطات العربية والإسلامية ورقمنتها (تحويلها إلى صور 
حاسوبية) . وللمزيد من هذه الأمثلة؛ نحيل القارئ إلى موقع مكتبة جامعة ميتشغان 
الأمريكية ] [vv‏ فقد ذكر الموقع قائمة من مواقع الإنترنت المحتوية على قواعد 
بيانات للمخطوطات الإسلامية الرقميةء مع ترتيبها على حسب الدولةء والجدير 
OI) Sally‏ غالب هذه الجهود al Se‏ من قبل جامعات. Gly‏ غالبها 2 دول غير 
عربية وهي المخطوطات العربية والإسلامية الموجودة 2 أوروباء مما يدل على حجم 
المشكلة ومدى تقصير الجامعات والمؤسسات العربية تجاه هذا التراث العظيم. 


برنامج مكتبة الملك عبد العزيز العامة بالرياض 

aly EET gatito SRL aut a anal‏ رهن ارصن 
المخطوطات التابعة للمكتبة كإصدار أولي تجريبي منذ ما يقارب خمس سنين» على 
أن يتم تحسين البرنامج وإصدار نسخة نهائية للجمهور للاستفادة die‏ ولكن لم 
يتم اصدار النسخة النهائية إلى يومنا هذا للأسف. يحوي البرنامج ما يقارب 
٠٠١‏ مخطوطة مختلفة: ويسمح بالبحث 2 اسم المخطوطء أو اسم المؤلف» أو 
رقم الحفظ. كما يظهر من رسم توضيحي .٠١‏ يتميز البرنامج بإمكانية رؤية صور 
iei ridges‏ لقص ]نحن الت سين edi E ads atr to‏ 
y Lad‏ وتكبير الصورة. يفتقد البرنامج إلى توصيف دقيق لبطاقات المخطوطات. 
فهو يكتفي فقط بتحديد ثلاثة حقول ( اسم المخطوط, اسم المؤلف» ورقم الحفظ)ء 
ويعرض باقي المعلومات ALS‏ من غير تنسيق. كما إن مرور الأعوام من غير 
إصدار البرنامج للجمهور أو إعلان تحديثات عليه تقلل من أهميته .2 مجال رقمنة 
المخطوطات العربية والإسلامية. 


qo 


)1( شاشة البحث مع الشاشة الرئيسية للبرنامج (c)‏ شاشة عرض ال مخطوط 

رسم توضيحي ٠١‏ : برنامج مكتبة الملك عبد العزيز العامة بالرياض. 
مشاريع مستقبلية 2 رقمنة المخطوطات 

ثمة عدد من المؤسسات التي تذكر مشاريع مستقبلية 2 رقمنة المخطوطات 

العربية والإسلامية: نذكر على سبيل المثال منها مؤسسة الفرقان التي أعلنت 
شروعها 2 بناء أكبر قاعدة بيانات للتراث الإسلامي على الشبكة العنكبوتية 
[1v]‏ كما قامت جامعة ماكغيل 2 كندا بتأسيس مشروع ag dall‏ العقلانية 2 
[vo] (Rational Sciences in Islam) m‏ والذي يهدف إلى دراسة التراث 
الفلسفي والعلمي والديني للمسلمين بطريقة شاملة. ويتوقع القائمون على هذا 
المشروع أن يرفد الباحثين والمهتمين بعشرات الآلاف من المخطوطات الإسلامية 
بصورة ميسرة وعلميةء ولقد عمدوا إلى تقسيمه لعناصر BAS‏ منها اثنان خاصان 
برقمنة المخطوطات الإسلامية: 


o‏ التقاليد العلمية 2 المجتمعات الإسلامية (STIS)‏ : يهدف إلى دراسة تأثير 
العلوم الإسلامية على العلوم الحديثة 4 أوروباء وتأثير الكتابات الغربية 
ما قبل القرن الثاني عشر الهجري على الباحثين 2 الدول الإسلامية. 
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© مبادرة لبناء قاعدة بيانات S‏ مخطوطات الفلسفة الإسلامية ما بعد 
الكلاسيكية (2121(1): يقوم الباحثون بإنشاء البنية التحتية العلمية 
المناسبة لإجراء دراسات منهجية 2 النصوص الفلسفية الإسلامية 
التي يرجع تاريخها إلى ما بين القرن الخامس إلى القرن الثالث عشر 
الهجري. وتشتمل قاعدة البيانات على مخطوطات 2 (Sla‏ 2-5 فلسفة 
اللفةء ونظرية AB yell‏ والأخلاق, والميتافيزيقياء والفلسفة الطبيعية 
bigs! ales‏ وفلسفة العقل. 

e‏ مبادرة المخطوطات العلمية الإسلامية (ISMI)‏ يهدف هذا المشروع 
إلى توفير مجموعة واسعة من المعلومات حول ag tell‏ الدقيقة 2 
العالم الإسلامي قبل العصر الحديث؛ من خلال تقديم هذه العلوم 
والمخطوطات إلى الباحثين والخبراء بلا مقابل عن طريق SIT‏ 128 
وإلى تثقيف الجمهور 2 جميع أنحاء العالم 2 العلوم الإسلامية. وينتظر 
أن تحتوي قاعدة البيانات على أعمال ما يقارب Cleg Lila 1٠١‏ 
2 مختلف أرجاء العلام الإسلامي من إسبانيا الإسلامية إلى الهند 
وحدود الصينء منذ بداية القرن الأول الهجري حتى القرن الثاني عشر 
الهجري. وتتراوح موضوعات هذه الأعمال بين «le‏ الفلك» والرياضيات, 
والفيزياءء والجغرافياء والميكانيكاء وعدد من التخصصات ذات الصلة. 


وبعد ذكر جهود ومحاولات الباحثين والمؤسسات 2 رقمنة المخطوطات مع 
ذكر أمثلة على أبرزهاء ومزايا وعيوب هذه المحاولات. ويندرج 2 هذا الباب MAS‏ 
الجهود المبذولة 2 محاولة جمع قواعد بيانات خاصة بخطوط العلماء السابقين 
وناسخي المخطوطات. وهذا ما سيتم تفصيله -2 الفصل القادم. 
جمع نماذج من خطوط العلماء 

اهتم العلماء السابقون بتحصيل نماذج من خطوط العلماء والنساخ والمشاهير 
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Lana‏ 4 كتب» وقد دعت الحاجة 2 زماننا الحالي إلى بناء قاعدة بيانات رقمية 
تحوي عددًا كبيرًا من الخطوط الموجودة 2 الوثائق التاريخية العربية والإسلامية 
Ceca sad‏ ضيف dd ay OO EEE ONEA AA‏ الها ينين 
الآلي والاستفادة منها. إِنَّ بناء قاعدة بيانات تعد عملية أساسية للأبحاث المتعلقة 
بتحديد هوية صاحب الخط والتعرف على الكتابة 4 اللغة العربيةء إذ من الممكن 
استخدام قواعد بيانات الخطوط 2 الوثائق التاريخية العربية والإسلامية المكتوبة 
بخط اليد 4 المجالات البحثية التالية: 


. (Writer Identification) تحديد هوية كاتب المخطوطات العربية والإسلامية‎ .١ 

. (Writer Verification) التأكد من هوية الكاتب‎ Y 

LY‏ التعرف على الخطوط المزيفة وتمييزهاء والمساعدة 2 كشف المخطوطات 

المزورة. 

nt‏ قاعدة بيانات مرجعية للباحثين؛ لاختبار أنظمتهم وأساليبهم المطورة. 

ورغم اعتناء العلماء بخطوط العلماء والنسّاخ منذ مئات السنين» وجمع هذه 
الخطوط وطباعتها ‏ كتب مفردة, إلا Vai]‏ توجد للآن قاعدة بيانات متاحة 
للباحثين تعنى بخطوط النسّاخ والكتاب 2 المخطوطات التراثية. نذكر .2 هذا 
الفصل أمثلة على كتب مطبوعة اعتنت بجمع خطوط العلماء والنسّاخ مع ميزات 
هذه الكتب» ثم نذكر بعض الجهود المبدثية ‏ بناء قاعدة بيانات رقمية مختصة 
بخطوط GES‏ المخطوطات العربية والإسلامية. 


كتب مطبوعة اعتنت بجمع خطوط العلماء والنساخ 

من جهود علمائنا السابقين 2 هذا المجال ما جمعه الحافظ المؤرخ محمد بن 
على Biel as. lolo cl‏ واو cya [3] ete et, eile Yl‏ خطوظ علماء 
مكة ومصر والشام ما بين عام 45-47٠0‏ ه. G3‏ الكتاب عام A MEM‏ من قبل 
كبن daba bucal e E dons cale pc‏ ا bills‏ 
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لأحاديث وتراجم وأسانيد لأمهات الكتب الإسلامية. ويدل هذا الجمع على اهتمام 
المتقدمين بخطوط علمائهم وتوثيق إجازاتهم وأسانيدهم توثيقا صحيحًا. 

ومن أمثلة جهود علمائنا المعاصرين قيام خير الدين الزركلي بتأليف كتابه 
"الأعلام" [vv]‏ إذ حوى ثمانية مجلدات من تراجم المشاهير والأعلام من العلماء 
-2 مختلف الفنون» كالأنبياء, والملوك والسلاطين؛ والشعراءء وغيرهم. كما قام 
بتوثيق وإضافة صور لعينات من خطوط مئات من الأعلام قديمًا وحديثًا. 


كما قام ستيفن ليدر وزملاؤه بجمع وانتخاب السماعات الدمشقية الموجودة 2 
دار الكتب الظاهرية 2 مخطوطات ale‏ ۰ إلى a VO:‏ قام المؤلفون -2 كتابهم 
"معجم السماعات الدمشقية" [vA]‏ بتحليل ١170١‏ سماعًا بالإضافة إلى توصيف 
كل سماع Les‏ فيه الشيخ المسمعء وقارئ السماعء وكاتبهء وناقله»ء والمستمعء ورقم 
الخطوط وف Luca]‏ وان ads By op sca T‏ 


ومثلهم جمع عبد الله وجاسم الكندري نماذج وأمثلة من خطوط العلماء من 
القرن الخامس إلى العاشر الهجري» إذ حوى كتابهما dogs"‏ العلماء من القرن 
الخاممس إلى العاشر الهجريء نماذج وأمثلة" [ra]‏ ثلاثمائة نموذج لخطوط 
الاد مق الشماعات tra ABl‏ توصت fa pay‏ كحصن كل sels place‏ أن AS‏ 
الكندريّين اعتمد بكثرة على الاقتباس من كتاب معجم السماعات الدمشقية" 
لليدر وزملائه لكثرة النقولات. ويظهر رسم توضيحي ١١‏ نماذج مقتبسة من الكتب 
المذكورة آنقا مع التمثيل ببعض خطوط العلماء. 
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)>( كتاب ستيغن ليدر 2331239 — YA‏ )1( كتاب عبد الله وجاسم الكندري ‏ ۳۹ 


رسم توضيحي ١١‏ : أمثلة من كتب مطبوعة اهتمت بجمع خطوط العلماء. 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


قواعد بيانات رقمية معنية بخطوط العلماء 

اعتنى الباحثون 2 علوم الحاسب الآلي بالتعرف على الناسخ 2 المخطوطات 
الغربيةء وكثرت الأبحاث 2 هذا المجال — نذكر على سبيل المثال منها [ Liv - ٤١‏ 
ولكنْ اعتنائهم بالمخطوطات العربية والإسلامية يكاد يكون منعدمًا. فعدا عن بحث 
خاص بصاحب المقال [٤٤]ء‏ وبحث آخر عرض حدیٹا ]80[ لا تجد Éa‏ مختصًا 
dyed) cbs Baz ye a‏ ةة uel Ida‏ 


قام الباحث 2 بحثه "التعرف على الكاتب مستقلا عن النص 2 المخطوطات 
العربية التراثية وتأثير زيادة عدد Text Independent Writer Identifi- É MEUS‏ 
cation of Ancient Arabic Manuscripts and the Effect of Writers Increase‏ 
Lin [£6] "‏ قاعدة بيانات للوثائق التاريخية العربية والإسلامية المحتوية على 
عينات مختلفة من تأليف العلماء العرب والمسلمين. تحوي قاعدة البيانات صورًا 
متي مخطوطة مختلفة: تم اختيار خمس صور من كل مخطوطة؛ ليصبح عدد 
صور قاعدة البيانات ٠٠٠٠٠١‏ صورة لمئتي خط ناسخ. واستخدمت قاعدة البيانات 
المطورة لفحص هوية الكاتب والتحقق منها. وعند استخدام نظام تمييز النمط 
وبرمجيات التعرف على الكاتب المطورة تم تحقيق نسبة نجاح تقديرها: LAY ,A0:‏ 
2 التعرف على الكاتب. وتعد هذه النتائج المشجعة دليلا على قدرة الترمجيات 
والحاسب الآلي على تمييز الخطوط 2 المخطوطات والوثائق التراثية. إلا Oy)‏ هذه 
النتائج بحاجة إلى عدّة تجارب معتمدة على قاعدة بيانات تحوي عشرات AYY‏ 

مسن gi toalla gla aT‏ من N‏ اوهو gall‏ توصو المؤسفات البحثية التي تعنى 
بالتراث وتحرص على إقادة الياحثين aal a a‏ جا (erie‏ قلي pon‏ 
الواقعلما لنتائجه - بإذن الله - من حفظ لتراثنا ‏ صورة علمية وعملية: Ug‏ فيه 


من تقديم RR‏ قيق تراث الأمةء ولما 
2 المستقبل. 


وبعدماقمنا 2 الفصول السابقة بذكر واقع وحاضر قواعد البيانات الإلكترونية 
للمخطوطات التراثيةء وميزات الجهود الحاليةء وأبرز العيوب والعوائق الحالية, 
نذكر 2 الفصل القادم مقترحًا لمواصفات قاعدة بيانات مستقبلية للمخطوطات 
الإسلامية Ay pally‏ وعرضها بالتقنية الرقمية. مع الخيارات ed als‏ التي تمكن 
قاعدة البيانات المقترحة من خدمة باحثي العلوم الإسلاميةء وعلوم الحاسب الآلي 


s La‏ قاعدة بيانات للمخطوطات الاسلامية وتوصيفها 

2 هذا الفصل نقترح بناء قاعدة بيانات رقمية للمخطوطات الإسلامية 
والعربية بمواصفات ومعايير عالمية معتمدة؛ تسمح بتطويرها واستخدامها 2 بحوث 
الحاسب الآليء بالإضافة إلى الاستفادة منها من قبل الباحثين والمهتمين بالتراث 
العربي والإسلامي. تبدأ عملية بناء قاعدة البيانات بمسح صور المخطوطات آليًا 
وتخزينها على الشبكة العنكبوتية؛ فيتم مسح هذه الصور باتباع المعايير العالمية 
2 مسح المخطوطات والوثائق التاريخية ( بدقة ٠٠١‏ نقطة لكل إنش) . وبعد القيام 
بمسح صور المخطوطات Ll‏ نقوم بتوصيف رقمي للمخطوط وصوره للاستفادة 
منه على أفضل وجه. ولتحقيق هذه الغايةء لا بد من تعريف القارئ بمبادرة ترميز 
وتبادل النصوص الرقمية [vv] (Text Encoding Initiative - TEI)‏ 


مبادرة ترميز وتبادل النصوص الرقمية 

قبل إنشاء مبادرة ترميز النصوص بوصفها نتاج عمل مجلس تعاوني ce las‏ 
لم يجد slale‏ العلوم الإنسانية معايير موحدة لترميز النصوص الإلكترونية تخدم 
باسم مبادئ باوكيبسي ٠‏ ثم تطويرهاء وتم إعلان مبادرة ترميز النصوص 
الرقمية Len]‏ 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


تقوم مبادرة ترميز النصوص على تحديد مجموعة من العلامات التي يمكن 
إدراجها 2 التمثيل الإلكتروني للنصوصء وذلك لتعريف بنية النص ووصفه بطريقة 
دقيقةء إذ تعتمد برامج الكمبيوتر على وجود مثل هذه العلامات الواضحة لمعالجة 
النصوص بطريقة صحيحة؛ فبدونها يبدو النص الرقمي سلسلة من الأحرف غير 


NE‏ سن وف المخطوط" Lév] (Manuscript Description)‏ من 
الوحدات المتخصصة المندرجة ضمن نظام ' ترميز النص الإلكتروني وتبادله" 
التي يمكن استخدامها لتقديم معلومات وصفية مفصلة عن الوثائق التراثية 
والمخطوطات المكتوبة بخط اليد. وعلى الرغم من أن عنصر وصف المخطوط 
Lol —‏ لترميز المخطوطات 2 التقاليد الأوروبية 2 العصور الوسطى» MU‏ 
برمجيته عامّة وشاملة؛ إذ يمكن أن تمتد إلى جميع الوثائق التاريخية بغض النظر 
عنوان» ومواد, وتاريخ ومكان المنشاً. وللتعريف بعتنصر وصف المخطوط e‏ تقوم 
بالتعريف ببعض حقوله: 
:msDesc e‏ حقل يتفم [ate‏ أو أكثر للمخطوط. 
:msldentifier e‏ معرف للمخطوطء يحتوي على المعلومات المطلوبة لتحديد 
المخطوط. 
shead e‏ يحتوي على أي نوع من العناوين» مثل عنوان القسم» أو عنوان 
القائمةء عنوان المخطوط. 
:msContents e‏ يتضمن محتويات المخطوطء كما يصف المحتوى الفكري 
للمخطوط أو جزء من المخطوط. 
:physDesc e‏ يحتوي حقل الوصف المادي على الوصف المادي الكامل 
]58 تخصصا. 
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:history ©‏ مجموعة من العناصر تصف التاريخ الكامل لمخطوط أو جزء 
من مخطوط. 

:msPart e‏ حقل يحتوي على معلومات حول جزء من المخطوط. 

dimensions e‏ مواصفات أبعاد المخطوطة» أو صفحة معينة من المخطوط؛ 
أو جزءًا منها. 

locus ©‏ يحدد موضع وإحداثيات موقع داخل جزء من المخطوط. 

material e‏ وصف للمواد التي يتكون منها المخطوط. 

:watermark e‏ وصف لأي علامة مائية أو رمز مماثل 2 المخطوط. 

:origDate œ‏ يحتوي على أي شكل من أشكال التاريخء وتستخدم لتحديد 
تاريخ LAW‏ للمخطوطة. 

:origPlace ¢‏ يحتوي على أي طريقة لوصف المكان. وتستخدم لتحديد 
مكان الأصل للمخطوطة. 


الرموزالمطلوية لتوصيف المخطوطات العربية والاسلامية 

العربية والإسلامية. مع الإشارة إلى أنَّ بعض هذه الصفات قد تحتوي على أكثر 
من مَدَّخَلء فعلى سبيل JEL‏ قد يحتوي المخطوط على عدة عناوين له وقد يكون 
yA ST Mali‏ من لقي pad LS‏ إلى أن ses‏ هذه الحو ك Qa) 2. jag M‏ 
المخطوطات,. أولا يتم تعبثتها عند توصيفها . إلا B1‏ النظام يسمح بإضافتها أو 
تعديلها 2 المستقبل مما يعطي مرونة لقاعدة البيانات المقترحة. 


الحرفالعربي والتقنية 
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. معلومات خاصة با مخطوط : 


ò re‏ ضو. د 
T 3 :‏ 


EUM erg oe s EES 
| عقاسدالخطيض‎ E | 
عا ا سك‎ 


رق انف ا 
ME acm‏ 
تاريخ iM‏ 496 + التأليف توارد za‏ 
ا | «wap | mar | nep‏ [ 
ب. معلومات خاصة بالمؤلف / الناسخ / صاحب الحاشية / الخ: 


. معلومات خاصة بصفحة أو منطقة أو جزء من المخطوط: 


(di 
عدد الكلمات لكل‎ 1 
عدد اللأسطر امتداد السطر ارتفاع السطر‎ 


EU المنطقة‎ 


مقترح المهام الخاصّة بأبحاث الحاسب الآلي 

وأخيئراء نقوم هنا باقتراح وتوصيف عدد من المهام القادرة على استثمار 
برمجيات الحاسب الآلي -2 مساعدة الباحثين # مجال العلوم الإنسانية والتراث 
العربي والإسلامي. ولتحقيق هذه المهام: فلا بد من سماح قاعدة البيانات المقترحة 
للمخطوطات الإسلامية للباحثين بتحميل مجموعة من صور المخطوطات ومعلومات 
هذه الصور بأعداد تصل إلى عشرات الآلاف بسهولة وسرعة:؛ مما يتطلب أخن 


٠١. 


هذه المتطلبات بعين الاعتيار عند تصميم قاعدة البيانات الرقميةء وهي الميزة التي 
تفتقدها جميع قواعد البيانات الرقمية للمخطوطات الإسلامية والعربية - للأسف 
- حاليًا. 


كما تتضمن هذه المهام تقسيم المدخلات إلى مجموعات منفصلة للتدريب 
والتحققء والاختبارء وغيرها للمساعدة 2 تطوير البرمجيات بطريقة علمية 
دقيقة. مع الإشارة إلى Go‏ عدد الصور أو النصوصى ال مختارة 3 الفقرات القادمة 
هي أعداد مقترحةء وهي أعداد تقديرية للتمكن من تحقيق نتائج مرضية على 
مستوى عالمي 2 مجال التعرف الآلي» وتعتبر الزيادة على هذه الأعداد المقترحة 
onda (al‏ :وعاليًا عد ة الخطوظ Raoul Litas yell‏ ع الهام Am yall‏ الخاضه 
بأبحاث الحاسب الآلي: 


أ. التعرف على الكتابة (Automatic Text Recognition) LAT‏ 
تعد مهمة التعرف الآلي على نصوص المخطوطات من أهم النتائج المتوقعة 
لعلم الحاسب الآلي 4 خدمة التراث العربي والإسلامي» وهي 2# الوقت نفسه من 
أكثرها صعوبة بلا شك. فإن تحقيق نتائج مرضية 2 هذا المجال يعد شائكا 2 
صور الوثائق المكتوبة بخط اليد 2 اللغة العربية عمومًاء و2 المخطوطات التراثية 
خصوصًاء إذ تحتاج هذه المهمة إلى الكثير من الوقت والجهد لتحضير صور 
المخطوطات - بالإضافة إلى حاجتها لتوفر نصوص هذه الصور - قبل استطاعة 
الباحث 2 الحاسب الآلي البدء 2 تطوير برمجياته. كما يحتاج إلى تحديد 
إحداثيات كل سطر 4 صور صفحات المخطوط ( بداية السطر ونهايته وارتفاعه) , 
وتحديد نص كل صورة سطر على انفراد. والحقيقة أنَّ الجهد الكبير لتجهيز مثل 
هذه المتطلبات لا بد أن يعتمد على تعاون الباحثين 2 أنحاء العالم؛ لكي يكتب له 
النجاح» ولذا تعتمد كثير من الجهود الغربية ب4 مثل هذه الأمور على العمل التطوعي 
للباحثين عن طريق الإنترنت. مما يستلزم بناء الموقع بطريقة تسمح للمشاركة 2 

هذه الجهود بالإضافة إلى وجود نظام محكم للتأكد من نتائج هذه الجهود. 
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بعد تجهيز البيانات اللازمة لمهمة التعرف على الكتابة آليّاء يتم تقسيم الصور 
إلى أربع مجموعات منفصلة: نذكرها هنا مع ذكر قيم تقريبية لعدد المخطوطات 
4 كل مجموعة ( بافتراض وجود ٠١‏ آلف صورة للمخطوطات على الأقل 4# قاعدة 
البيانات المقترحة): مجموعة التدريب ) 07 من صور المخطوطات) . مجموعة 
التحقق (UV)‏ مجموعة الاختبار (4Y)‏ والمجموعة الإضافية ) OI‏ مع 
ملاحظة أن يتم اختيار هذه الصور من أكبر عدد ممكن من المخطوطات» مع 
اختلاف العصور الزمنيةء والفنون: ومكان المخطوطء وأسلوب المخطوط. وغيره» 
حيث يسمح التنوع بتطوير برمجيات ذات مرونة قابلة للتعرف على أكبر عدد من 
المخطوطات. يستخدم الباحثون عادة مجموعة التدريب لتطوير برمجياتهم وتعديل 
معابيرها؛ لتتوافق مع صور المخطوطات المقدّمة لهاء ويستخدمون مجموعة التحقق 
للتأكد من سلامة نتائجهم على مخطوطات لم تقدّم لبرمجياتهم من da‏ ومن 
ثم يتم اختبار أنظمتهم على مجموعة الاختبار ومقارنة النتائج. وتحافظ الجهة 
SLE dea el E e cn Esa de E ss‏ تمن عجر ره اسك اميا ذه 
مقارنة نتائج البرمجيات المطورة 2 مسابقات عالمية مستقبلية: إذ تساهم مثل هذه 
المسابقات على تشجيع البحث العلمي # هذه المجالات وتقدمه. 


ب. البحث عن صور الكلمات (Word Spotting)‏ 

يمكن استخدام صور ونصوص مهمة ' التعرف على الكتابة "I‏ السابقة 2 
تقييم وتطوير مهمة البحث عن صور الكلمات» ولكن مع وضع مجموعة من الكلمات 
الاختبارية ( 50٠-٠١‏ كلمة) بالاعتبار للبحث عنها 2 هذه الصور. ويفضل أن 
تكون هذه الكلمات المختارة من الكلمات المشتهرة عند باحثي التراث عند البحث 
2 المخطوطات. ومن الممكن استخدام مهمّة 'معالجة اللغة الطبيعية" لمعرفة أشهر 
هذه الكلمات. وبعد تحديد هذه الكلمات يأتي دور تحديد إحداثيات هذه الكلمات ب 
صور المخطوطات المختارة لكي يتم تطوير البرمجيات المختصة بالبحث عن صور 
الكلمات. 
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ج. تحليل صور !350551( (Document Image Analysis)‏ 
يتم مهمة تحليل صور الوثائق اختيار أكبر تنوع ممكن من أشكال صور 
المخطوطات,. إذ يتمكن الباحثون من الاستفادة من هذه الصور 2 تطوير العديد 
من التقنيات والتطبيقات 2 مجال تحليل صور الوثائق؛ بما -2 ذلك على سبيل 
المشال لا الحصر: تجزئة الصفحات والفقرات والأسطرء والتعرف على الرموز 
a)‏ التملكات والأختام)؛ والاسترجاع المعتمد على الشكل؛ وتمييز النص عن 
الرسومات. والتحليل المنطقي للوثائق» وتحديد تشابه الصفحات» ومعالجة 
الوك اكز Vol naues! ola EE pd‏ إن cubat ages‏ 
والمعلومات المختصة بهذا التطبيق. فعلى سبيل SLAM‏ يستلزم تطبيق التعرف 
على الرموز تحديد الإحداثيات المثات أو الآلاف من هذه الرموز الموجودة 2 صور 


د. معالجة اللغة الطبيعية (Natural Language Processing)‏ 


ىا هه هم 


تعد هذه المهمة من أسهل المهام 2 جانب التحضير المبدئي؛ إذ لا تستلزم 
صورًا للمخطوطات, وإنما تحتاج إلى نصوص هذه المخطوطات. والتي تتوفر بكثرة 
2 المكتبات الإلكترونية للتراث العربي والإسلامي. ويفضل التنوع 2 اختيار آلاف 
النصوص لهذه المهمة من حيث تاريخهاء والفن المختارء وما إلى ذلك. 

(Writer Identification and Verification) Ate ه. التعرف على الكاتب والتحقق‎ 

نحتاج 4 مهمة التعرف على الكاتب والتحقق منه إلى إضافة ترميز اسم 
الكاتب (ورقمه التسلسلي) لكل صورة 2 المخطوطء مع الاهتمام بالإكثار من 
المخطوطات المتنوعة للكاتب نفسه. وهذا يتم عن طريق البحث عن النساخ المكثرين 
من المخطوطات 2 قواعد بيانات المخطوطات الرقمية. إذ تساعد المخطوطات 
المتتوعة للكاتب نفسه 2 التأكد من قدرة النظام الآلي المطور على التعرف على 
الكاتب لا على المخطوط أو سنة النسخ. ويفضل أن يتم اختيار ٠١‏ صورة من داخل 
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المخطوط ( ٠٠٠٠٠١‏ مخطوط) مع استثناء صور البداية والنهاية؛ لاحتوائها Sale‏ 
علي LES‏ شير asl‏ مثل cl Lll‏ راترات ال 53 علس يتات البح 
ثم تقسّم الصور المختارة إلى المجموعات الأربع؛ مجموعة التدريب V)‏ صور لكل 
مخطوط) , مجموعة التحقق ) Y‏ صور لكل مخطوط) de gare:‏ الاختبار )0 صور 
لكل مخطوط) . والمجموعة الإضافية )0 صور لكل مخطوط) . 
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خاتمة 


قام الباحث 2 هذا المقال بتفصيل واقع رقمنة الوثائق التراثية؛ مع اقتراح 
الخطوات اللازمة 2 المستقبل للاستفادة المثلى من البرامج الحاسوبية الحديثة. 
إذ تمت دراسة فهارس المخطوطات الرقمية مع ذكر أبرز المؤلفات والمواقع المعنية 
بفهارمس المخطوطات العربية والإسلامية. وذ كر أبرز المزايا والعيوب لهذه المؤلفات 
والمواقع. وخاصّة 

مكتبة الفرقان الرقمية وفهارس مخطوطات مكتبة المسجد النبوي المتميزتين 
بے هذا المجال. وكما فصّل المقال جهود الباحثين والمؤسسات 2 بناء قواعد بيانات 
المخطوطات الرقمية؛ مع إيراد أبرز هذه القواعد وميزاتها وعيوبهاء وخاصّة نظام 
المخطوطات التابع لجامعة الملك سعود الذي نحسبه قادرًا على أن يصبح Lam po‏ 
معتبرًا 2 البحث الرقمي 2# المخطوطات التراثية شريطة زيادة مخطوطاته كثيرًاء 
وشريطة المراجعة الدقيقة لبطاقات مخطوطاتهء وإضافة السمات التقنية الحديثة 
اللازمة المبيّنة 4 الفصل الخامس لها أيضًا. يلاحظ 2 جمع الجهدد المبذولة 
خ بناء قواعد بيانات خاصّة بخطوط العلماء؛ مدى قلة هذه الجهود: والحاجة 
الماسّة لتأسيس قاعدة بيانات رقمية لخدمة بحوث التعرف الآلي على الكاتب ب 
المخطوطات التراثية. 


ونظرًا لعدم قدرة أي من قواعد بيانات الرقمية للمخطوطات التراثية الموجودة 
LU‏ على استيفاء حاجة الباحثين؛ فقد قام الباحث بعرض مقترح لمواصفات 
قاعدة بيانات ) 4104 مستقيلية للمخطوطات الإسلامية Aadli‏ مع تحديد 
الخيارات والميزّات التي تمكن قاعدة البيانات المقترحة من خدمة باحثي العلوم 
الإسلامية وعلوم الحاسب الآلي معًا. تحتوي قاعدة البيانات المقترحة للمخطوطات 


١١١ 


التراثية على مهام محدّدة مسبقا تساعد 2 تطوير البرمجيات الخاصّة بباحثي 
الحاسب الآلي: كالتعرف على الكتابة LE‏ والبحث عن صور الكلمات» وتحليل صور 
الوثائق» ومعالجة اللغة الطبيعيةء والتعرف على الكاتب والتحقق منه. ونتمنى أن 
تتواصل الجهود 2 الاتجاه المقترح لاستكمال بناء قاعدة بيانات رقمية للمخطوطات 
الترائية بالموصفات المطلوبة؛ حتّى يتسنّى للباحثين 2 علوم الحاسب الآلي تطوير 
بالواجب المرجو تجاه الأمّة. 
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شكر وتقدير 


يتقدم معد البحث بالشكر لمركز الملك عبد الله بن عبد العزيز الدولي 
لخدمة اللغة العربية لدعمهم لهذا المقال خاصّة وللغة العربية والدراسات اللغوية 
الحاسوبية Dale‏ ويذكر كذلك بوافر الامتنان كل من ساهم ب4 إثراء هذا البحث 
من آفكار أو مراجعة أو معلومات Aad‏ ونخصٌ بالشكر منهم الباحثين 2 العلوم 
الشرعية: الشيخ مشهور بن حسن آل سلمان» وسامي الأسعد» والباحث 2 العلوم 
اللغوية عماد السواعيرء والباحث 4# علوم الحاسب الآلي يوسف العريان. شكرنا 
أيضًا موجّه إلى جامعة القصيم لتوفيرها المرافق الحاسوبية. نسأل je alll‏ وجل 
أن يجعل عملهم خالصًا لوجهه. 
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استقصاء تقنيات معالجة اللفات الطبيعية وتطبيقاتها 2 
اللغة العربية 


s 


د.امجد أبو جبارة * 


amjbara@umich.edu 


Ga‏ شركة مايكروسوفت 


حصل أمجد gil‏ جبارة على درجتي الماجستير و الدكتوراة ‏ تخصص معالجة اللغات و استرجاع 
المعلومات من قسم هندسة و علوم الحاسوب بجامعة ميشيجان الأمريكية 2 العامين ۲٠٠۹‏ و 
۴ كما حصل على درجة البكالوريوس B‏ هندسة الحاسوب من الجامعة الإسلامية B‏ 
فلسطين 2 العام .٠٠٠٠‏ يعمل حالياً كباحث تطبيقي 2 مجال تطوير محركات البحث 2 شركة 
مايكروسوفت الأمريكية . تشمل اهتماماته البحثية حاليا تقنيات استرجاع المعلومات و معالجة 
اللغات» و تطبيقات تعلم الآلة. 
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ملخص 


يهدف هذا البحث إلى التعريف بمعالجة اللغات الطبيعية Natural Lan-)‏ 
(guage Processing‏ باعتبارها أحد eal‏ مجالات علوم الحاسوب المتفرعة عن 
مجال الذكاء الاصطناعي (Intelligence Artificial)‏ وباعتبارها تمثل نقطة 


التقاء بينه وبين مبحث اللغويات (Linguistics)‏ 


يسلط البحث الضوء على الجهود البحثية التي تستهدف اللفة العربية 
a sal ill E DL cse‏ من خصوصياك درم اليا حفن Leld‏ 
ERPF‏ عند نقل التقنيات المستخدمة 2 اللغات الأخرى إلى اللغة العربية. 

يستعرض هذا البحث أهم الموضوعات الفرعية المندرجة تحت مبحث معالجة 
اللغات الطبيعية كتقطيع الكلام إلى وحدات» وتصنيف أقسامه؛ وإعراب الجملء 
وفهم المعاني» وتوليد الكلام؛ إلخ. كما يستعرض الوظائف الأساسية التي ينبغي 
للباحثين 2 هذا المجال الإلمام بها ومعرفة التقنيات والطرق المختلفة لتنفيذها. كما 
يستعرضن البحث - أيضًاح أهم وأشهر التطبيقات التي تعتمد بشكل أساسي على 
تقنيات معالجة اللغات. 

يعتمد هذا البحث على عرض خلاصات ما ورد .3 eal‏ الكتب والبحوث 
المرجعية 2 المجال» وعقد المقارانات والمفاضلات بين الطرق المختلفة التي اقترحها 
الباحثون وعرض نتائج تقييم العديد من هذه الطرق. 

يتضمن البحث كذلك استعراضًا مقتضبًا لأهم الأدوات والمكتبات البرمجية 
والمجموعات النصية والبيانية المستخدمة بشكل متكرر من قبل الباحثين. هذا مع 
ترك إشارة إلى كل مرجع وكل أداة حتى يستطيع القارئ المهتم اللجوء إلى المصادر 
للحصول على المزيد من المعلومات التفصيلية 4 كل موضوع. 
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.١‏ مقدمة إلى علم معالجة اللغات الطبيعية 

الذكاء الاصطناعي واللغويات. فعلم الذكاء الاصطناعي يهتم بتطوير خوارزميات 
وتقنيات تجعل الحاسوب قادرًا على تحليل وفهم البيانات التي يستقبلهاء وقادرًا 
على توظيف هذا الفهم لاتخاذ قرارات ذكية وراشدة 2 ظروف وسياقات مختلفة 
-قد لا يكون تعرض لها من قبل- دون أن يكون قد تمت تغذيتة بأوامر برمجية 
محددة تخبره ماذا يفعل ‏ كل ظرف [ ١‏ ]. 


Lal‏ علم اللغويات فهو العلم الذي يهتم بفهم مكونات اللغة. وأقسام الكلام» 
والعلاقات القواعدية والمعنوية بين تلك الأقسام» وأنماط التعبير. وطرق استخدام 
الألفاظ المختلفة 2 السياقات المختلفةء إلخ. 


وبالتالي فإن علم معالجة اللغات الطبيعية هو علم تطبيقي يعني باستخدام 
تقنيات الذكاء الاصطناعي - وعلى رأسها تقنية تعلم الآلة - من أجل حوسبة 
المفاهيم النظرية الموجودة 2 علوم اللغويات الخاصة باللغات الطبيعية التي 
يستخدمها البشر 2 التخاطب بحيث يصبح الحاسوب قادرًا على تحليل وتمثيل 
وتوليد النصوص المدخلة أو المكتوبة أو المنطوقة بتلك اللغات. 

وتدخل تقنية معالجة اللغات 2 كثير من التطبيقات الهامة التي أصبحت 
تشغل حيزا كبيرًا من الحياة اليومية لمستخدمي الكمبيوتر والإنترنت» ومن هذه 
التطبيقات: محركات البحث» والترجمة الآليةء والتلخيص الآليء والإجابة الآلية 
عن AL‏ وأنظمة الإعلانات الذكية عبر الإنترنت» وتحليل المشاعر وقياس 
الرآي العام وتصنيف موضوعات GLE‏ وتنقية البريد الالكتروني من الرسائل 
ia Leal!‏ إلى آخر قائمة تطول من التطبيقات الهامة. 
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نبذة تاريخية 

علم اللغويات -والذي يستمد مجال معالجة اللغات أسسه النظرية منه- علم 
قديم جدًا يصل عمره إلى مئات السنوات أوريما أكثر من ذلك. أما علم معالجة 
اللغات الطبيعية فظهر بطبيعة الحال بعد وقت قصير من ظهور وانتشار الحواسيب 
إذ تعود أصوله إلى خمسينيات القرن الماضي عندما وضع العالم الشهير آلن تيورنج 
Alan Turing‏ معيارًا يمكن من خلاله الحكم على ذكاء الحواسيب [Y-Y]‏ يتمثل 
هذا المعيار 2 اختبار يتنافس فيه الحاسوب مع إنسان على إجابة أسئلة يلقيها 
عليهما حكم باستخدام لغة طبيعية ودون أن يعرف الحكم من من المتسابقين هو 
الذي يجيب. يعتبر تيورنج 2 معياره هذا أن الحاسوب CSS‏ بقدر كاف إذا كان 
الحكم e‏ عق ليق بين إجايات الإتساو وا de‏ ف ا ` 


اللفة الطبيعية التي يتلقى فيها الأسئلة وأن يكون قادرًا على توليد الإجابات بلغة 
طبيعية كذلك. وقد شكل هذا التحدي أحد أوائل محفزات البحث # مجال معالجة 


وكان من أوائل التطبيقات التي انصب عليها اهتمام الباحثين 24 فترة 
الخمسينات والستينات من القرن الماضي فكرة الترجمة الآلية من لغة إلى لغة 
أخرى وكانت أولى التجارب التي نجحت نجاحًا مبدئيًا 4 هذا المجال بحث صدر 
عن جامعة جورج تاون نجح فيه الباحثون 2 ترجمة قرابة 7١‏ جملة من اللغة 
الروسية إلى اللغة الإنجليزية ] 07$[ ومن التطبيقات الأولى التي لاقت اهتمامًا 
-Lá Í‏ أنظمة ast‏ الأسئلة" [v3] Question Answering‏ ثم أنظمة تحليل 
وفهم الحوار [57A]‏ وأدوات تقطيع الكلام وتحديد أصنافه وإعراب الجمل[١٠-‏ 
[v‏ ثم تطبيقات التلخيص الآلي [ve]‏ وأنظمة استرجاع البيانات [١٠]ء‏ ثم 
تطبيقات تحليل المشاعر التي تزامن ظهورها مع انتشار شبكة الإنترنت [vov]‏ 
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وقد كان التركيز 2 البدايات ينصب بشكل أساسي على تحديد مجموعة 
من القوانين التي يصوغها الباحثون بشكل يدوي (Rule-based Approach)‏ 
ويلقمونها للحاسوب 4 صورة برمجية حتى يتمكن من خلال تنفيذها من فهم 
أو توليد الكلام؛ وكان وضع هذه القوانين يتطلب من البحاثين rec Leg‏ للغة 
وقواعدها ومعاني كلماتها وكيف يمكن أن تتغير هذه المعاني 2 السياقات المختلفة. 

ولكن مع ظهور تقنيات تعلم الآلة Machine Learning‏ 2 أواسط الثمانينات 
ومع تطور سرعات وذواكر الحواسيب بدأ الاعتماد على وضع قوانين مصاغة 
Logs‏ يتراجع بشكل تدريجي لصالح الطرق الإحصائية التي تترك للحاسوب 
مهمة استنباط أو تعلم القوانين بشكل آلي من خلال الاطلاع على كميات ضخمة 
من النصوص والبحث فيها عن خصائص وأنماط متكررة ذات مدلول إحصائي 
s rana)‏ الصقة بعد الموضوؤف يشكل Ste‏ 5 ب اللقة العربية مكلا ) وهذا (las‏ أنه 
لم يعد من المهم أن يكون لدى مطوري أنظمة معالجة اللغات فهم عميق وكامل لكافة 
قواعد اللغة ومعانيهاء وإنما age ph‏ امتلاك القدرة على تحويل النصوص إلى صيغ 
إحصائية تتمثل فيها أهم خصائص وأنماط اللغة المتكررة. 

مؤخرًا بدأت تظهر بحوث جديدة تتبنى طرق هجينة تعتمد على كل من 
القوانين المصاغة Logg‏ والأنماط الإحصائية التي يتم تعلمها LA‏ باستخدام 
تقنيات تعلم الآلة للحصول على نتائج أفضل. 
معالجة اللغة العربية 

ظهر الاهتمام بتقنيات معالجة اللغة العربية متأخرًا بقدر ملحوظ عن اللغات 
الأخرى» وكانت البدايات الأولى 2 التسعينيات من القرن الماضيء وتناولت الأبحاث 
وقتها بعض جوانب اللغة كالتحليل [Y--*A] Morphological Analysis yall‏ 
وتجذير الكلمات [v1 ] stemming‏ والتمثيل الحاسوبي لقواعد [yy] pl‏ 
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وتزايد الاهتمام بمعالجة AGU‏ العربية بشكل مطرد مع دخول الألفية 
الثانية. لاسيما مع تزايد الاهتمام بدراسة المنطقة العربية ولغتهاء وتوفرت أموال 
وافرة لدعم البحوث الخاصة بمعالجة اللغة العربية من جهات حكومية وجامعات 
ومؤسسات بحذية عالمية: كما نُظمت العديد من ورش العمل الخاطة بدراسة ثقنيات 
معالجة اللغة العربية على هوامش المؤتمرات الكبرىء» وتناولت الأبحاث 2 أكثرها 
نقل التقنيات المستخدمة لمعالجة اللغات الأخرى وتطبيقها على اللغة العربية بعد 
تكييفها وتحويرها لتتناسب مع خصوصيات اللغة العربيةء ومن المهام الرئيسية 
التي تناولتها الأبحاث تقطيع a AST‏ وتحديد أصناف الكلمات؛ والإعراب» وتحديد 
الروابط المعنوية بين أجزاء a ASI‏ ونسبة الضمائر إلى ما تعود عليه. كما تناولت 
الأبحاث العديد من التطبيقات الهامة كالترجمة الآلية بين اللغة العربية واللغات 
الأخرى ] [vo-vv‏ والتلخيص الآلي ] [vv-v‏ وتحليل المشاعر واكتشاف الآراء 
[va-vA]‏ هذا بالإضافة إلى تناول جوانب بحثية تخص اللغة العربية كالتشكيل 


ويميز الباحثون بين ثلاثة أشكال aat‏ العربية [rv]‏ 

أولا: Ay pall‏ الفصحى التراثية Classical Arabic‏ وهي اللغة المستخدمة 
ل النصوص الدينية والنصوص التاريخية والكتب Les sal]‏ وتعتبر اللغة العربية 
القديمة من أقدم أشكال اللغة التي حافظت على وجودها وانتشارها واستعمالها 
من قبل أعداد كبيرة من الناس بشكل يومي» ويعود الفضل -2 هذا إلى كونها لغة 
القرآن الكريم ولغة نصوص السنة النبوية التي يتداولها ويستخدمها المسلمون - 
الذين يمثلون أغلبية العرب- بشكل يومي خلال ممارستهم للشعائر الدينية. 

SL‏ العربية الفصحى الحديثة Modern Standard Arabic‏ وهي اللغة 
الرسمية # كل الدول العربيةء وتعتبر لغة ثانية 2 بعض الدول غير Ag pall‏ وهي 
اللغة المستخدمة 2 الكتابة الرسمية والتعليم والصحف ووسائل الإعلام. وتمتلك 
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الفصحة الحديثة نفس خصائص الفصحى التراثية من حيث قواعد اللغة وبناء 
الجمل وتصريف الكلمات وأصوات by pal‏ ولكنها تختلف 2 كثير من الكلمات 
والتعابيرء حيث إن ثمة الكثير من الكلمات والتعابير الموجودة 2# العربية التراثية 
تراجع استخدامها 2 اللغة الحديثةء ودخلت على اللغة كلمات وتعابير جديدة 
مقتبسة من لغات أخرىء أو 2 إطار الاستجابة الطبيعية لمتطلبات التطور المع .2 
والحضاري. 


قالفًا: اللهجات العربية العامية Dialectal Arabic‏ وتمشل اللفات المحلية 
المستخدمة 2 التخاطب اليومي بين الأفراد 2 المعاملات الحياتية المختلفة, 
وهي تختلف عن بنية وقواعد العربية الفصحى كما تختلف اللهجات العامية عن 
بعضها من نطاق as‏ 2.1 لآخر ومن بلد لآخر. وقد اشتهر بين الباحثين ب2 اللفة 
العربية تمييز” لهجات رئيسية # العالم العربي: المصرية؛ والخليجيةء والشاميةء 
والمغاربية: ALB! pally‏ واليمينية. وتوجد عدة تقسيمات آخرىء» ولكن يعتبر هذا 
التقسيم أكثرها شيوعًا. وكل واحدة من اللهجات تندرج تحتها لهجات فرعية 
تختلف من منطقة إلى أخرىء كما تختلف بحسب المستوى الاجتماعي ومكان 
المعيشة: المدينة al‏ القرية al‏ البادية. 


وعليه فإن اللغة العربية تتمثل فيها ظاهرة يعرفها علماء اللسانيات ويسمونها 
gla‏ اللسات" 98 وهي تعني أن أهل منطقة معينة يتحدثون لغتين بينهما 
اختلاف واضح من حيث القواعد وبنية الجمل والتراكيب وتصريف الكلمات دون 
أن يشعروا أنهم يتحدثون لغتين مختلفتين وإنما يتصرفون باعتبارهم يتحدثون لغة 
واحدة [rA]‏ مما يوجد تحديات بحثية لا سيما 2 ما يتلعق بمعالجة النصوص 
المنشورة 2 وسائل التواصل الاجتماعي التي يكثر فيها الخلط بين العربية الفصحى 
واللهجة العامية [ye]‏ 
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LY‏ الوظائف الرئيسية 2 معالجة اللغات الطبيعية 

الفصول التالية من هذا البحث ستتناول المهام والوظائف الرئيسية التي يتكرر 
الاحتياج إليها 2 أنظمة معالجة اللغات؛ مع استعراض مقتضب للطرق المختلفة 
التي توصل إليها الباحثون للقيام بهذه المهام مع تسليط الضوء على الأبحاث 
التي استهدفت اللغة العربية بشكل خاص ب كل من هذه المهام. كما يتضمن هذا 
الاستعراضص تبيانًا لبعض الوظائف والمهام الإضافية التي تلزم عند معالجة اللغة 
العربية واللغات الشبيهة بها على وجه الخصوص. 
تسوية الكتاية Orthographic Normalization‏ 

وتعتبر هذه العملية من أول العمليات التي يتم إجراؤها على النصوص المكتوبة 
قبل البدء بمعالجتها بهدف التأكد من تنقية النص من الشوائب الكتابية كالرموز 
الزائدة cubes s‏ الترقيم ad‏ الهامة Alea!‏ المعالجة مشلا :وكدلك من أجل ASU‏ 
من توحيد الأنماط المختلفة لكتابة الشيء الواحد. وقد تختلف إجراءات التسوية 
بحسب ما يحتاجه التطبيق. ولكن بشكل عام تتضمن إجراءات التسوية إزالة 
بعض الرموز الغريبة التي لا فائدة من وجودها 2 النص» وتوحيد طريقة كتابة 
علامات الترقيم» وتحويل الحروف الكبيرة Capital Letters‏ ج اللغة الانجليزية 
إلى حروف صغيرة Small Letters‏ إذا كان التطبيق لا يحتاج إلى التفريق بينهما. 

وقد بينت بعض البحوث المتعلقة بمعالجة اللغة العربية أن إجراء عمليات 


التسوية على النصوص العربية له تأثير ملحوظ على جودة وكفاءة عمليات المعالجة 
اللاحقة للنص [v4]‏ 

ومن أمثلة عمليات التسوية 2 اللغة العربية إزالة التطويل من الحروف التي 
يتم إضافة تطويل لها (عن طريق زر shift +j‏ 2 الكيبورد مثل: سي ارة" 
حيث يظهر فيها طول زائد لحرف الياء) LE]‏ ومن الأمثلة أيضًا توحيد طريقة 
كتابة الحروف التي يكثر وقوع الخلط فيها 2 اللغة العربية كالهمزة (الخلط بين 
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الوصل والقطع» والخلط بين الهمزة على call‏ حال كونها مفتوحة أو مضمومة - 
حيث تكون الهمزة أعلى الألف- وحال كونها مكسورة - حيث تكون الهمزة أسفل 
ca Yl‏ - ): كذلك الخلط بين الألف المقصورة والياءء وبين الهاء والتاء المربوطة. 
فيتم توحيد كتابة كل هذه الحروف بتحويل كل حالة يحصل فيها خلط إلى صورة 
موحدة 2 كل النص. ومن أمثلة عمليات التسوية كذلك إزالة التشكيل (خاصة 2 
حال كونه موجودًا لبعض الحروف أو الكلمات فقط دون أخرى) . 


النسخ الحريك Transliteration‏ 

ويقصد بالنسخ الحرخ كتابة الكلمة باستخدام حروف لغة أخرى غير اللغة 
الأصلية للكلمة عن طريق تحويل كل حرف إلى حرف أو أكثر يقابله 2 اللغة الأخرى 
Lig‏ ما يكون لفظ هذا المقابل قريب من لفظ الحرف الأصلي 2 اللغة الأصلية. 
من أمثلة ذلك تحويل الحرف "ب" ب اللفة العربية إلى "6" أوتحويل الحرف 
Sahel‏ 

ويقصد بالنسخ 11 22 سياق معالجة اللغات كتابة نص لغة ما باستخدام 
رموز ASCILI‏ والتي تقتصر على الحروف الانجليزية الصغيرة والكبيرة والأرقام 
وعلامات الترقيم وعدد من الرموز الخاصة الأخرىء» يتم اللجوء إلى النسخ الحر2 
2 تقنيات معالجة اللغات لأسباب عديدة منها وجود أنظمة حاسوب ولغات برمجة 
لا تدعم سوى ترميز ال ASCII‏ ولا تدعم الترميز العالمي Unicode‏ الذي يدعم 
حروف كل cla‏ وحتى 2 الحالات التي يتوفر فيها الترميز العالمي فمازال العديد 
من الباحثين الذين يتعاملون مع لغة غير لغتهم يلجأون إلى استعمال النسخ الحر2 
لتسهيل التعامل مع اللغة الغريبة عنهم. 


واللفة العربيةواحدة من اللفات التي يستعمل فيها النسخ الحرج بشكل 
متكررء وأكثر قواعد النسخ الحرخ المستخدمة من قبل الباحثين الأجانب هي 
[£v] Buckwalter Transliteration à à; le‏ أوأحد الطرق المبنية عليها (متال 
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Habash-Soudi-Buckwalter‏ [؟: ]) . ووفق طريقة تحويل Buckwalter‏ يكون 
لكل حرف عربي ما يقابله (قد يكون حرف أو أكثر أو حرف و رمز) 4 ترميز ال 
"plate a SESS ASCH‏ تنسخ حرفيًا إلى " samaA‏ "< وكلمة "كان" تنسخ 
إلى "124828" وهكذا. ويكون التحويل لكل كلمة تحویلا Maa à‏ بحيث يمكن عكس 
عملية التحويل لاستعادة الكلمة الأصلية كما هي. 


ونحيل المطورين المهتمين بتطوير وبرمجة أدوات معالجة اللغة العربية إلى 
ال Unicode‏ إلى ترميز ASCII‏ وفق طريقة Buckwalter‏ وبالعكس. بالإضافة إلى 
هذا ola‏ الواجهة البرمجية (APT)‏ المرفقة ب" المجموعة النصية العربية القرآنية" 
تتضمن برنامجًا يقوم بنفس المهمة باستخدام طريقة مشتقة من طريقة Buck-‏ 
walter‏ بعد إدخال تغييرات طفيفة عليها ]££[ 


تقطيع Tokenization a MSS)‏ 
وتسمى هذه العملية أيضًا بالتحليل اللفظي Lexical Analysis‏ ويقصد به 
تقطيع النص إلى وحدات 5 تتكون JS‏ وحدة منها من أحرف أو أرقام أو 
رموز متصلة كالكلمات أو الأعداد أو علامات الترقيم» مع تحديد موضع بداية 
ونهاية كل وحدة. وتختلف درجات التقطيع التي يتم إجراؤها على النص بحسب 
ما يتطلبه التطبيقء ومنها '"التقطيع البسيط" وغالبًا ما تستخدم فيه التعبيرات 
النمطية Regular Expressions‏ لتقطيع النص إلى الوحدات التي تفصل بينها 
المسافة Whitespace‏ أو نهاية السطرء كذلك يتم فصل علامات الترقيم عن 
الكلمات ALS LIS)‏ المتصلة بالكلمة). بحيث تصبح الكلمة وحدة وعلامة الترقيم 
وحدة أخرى منفصلة [gic‏ وكذلك فصل الأرقام عن الكلمات إذا كانت متصلة 
بهاء وكذلك فصل بعض أدوات الربط التي قد تتصل بالكلمات أحيانًا كما .2 اللغة 


Ay pall‏ قلا ين يتصل حرف العظف "و" A allo‏ التي فيه كينا ,2 كثير من 
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النصوص العربية. وقد تشمل عمليات التقطيع البسيط إزالة بعض الرموز الغريبة 
أو استبدالها كلها برمز واحد بهدف تقليل درجة التشويش noise‏ 2 النص. 

وقد تتطلب بعض التطبيقات عملية ''تقطيع متقدم'" تذهب إلى أبعد من مجرد 
تقطيع النص إلى كلمات تفصلها مسافة Whitespace‏ [ 51-440 ]؛ وفيها يتم تقطيع 
الكلمة نفسها إلى وحدات أصغر إذا كانت الكلمة ناتجة عن تركيب عدة مكونات 
كدخول "ال" التعريف على الكلمة أو الضمائر المتصلة كما اللغة العربية. و 
هذه الحالة تتطلب علمية التحليل cl po!‏ تحليل 5 | -2 Morphological Analy-‏ 
sis‏ للنص للتعرف على المكونات التي تتركب منها الكلمات حتى يكون من الممكن 
تقطيعها على هذا النحو. 

الشكل ١‏ يوضع مالا لجملة 2l,‏ 3 العربية ونتيجة تقطيعه ا تقطيعًا بسيطا 
وتقطيعًا متقدمّاء وتوجد بين هذين المستويين من التقطيع مستويات عدة يتم اللجوء 
إلى ما يناسب التطبيق من بينها [vv]‏ 


سيلف fal reo aie adh‏ كلمت :شير diesel‏ الجديية: 
| تقطيع بسيط | سيلقي | المدير | كلمة | | و| ستتناول | كلمته | شرحًا | للخطة | الجديدة | . 
تقطيع متقدم | | يلقي | ال | مدير | كلم | | ٠‏ | و | س | تتناول | كلم | | + | شرح | ل | ال | خط | 


شكل١‏ : مثال يوضح كيفية تطبيق عمليات التقطيع البسيط والمتقدم على نص عربي. 


جدير بالذكر أن عملية تقطيع النص -حتى 2 أبسط أشكالها- تعتبر عملية 
صعبة ومعقدة للغاية_2 اللغات التى لا تستخدم فواصل محددة بين الكلمات ومن 
أمثلة هذه اللغات اللغة الصينية واليونانية التراثية واللغة التايلاندية وغيرها. 

ومن الأدوات التي يمكن أن يستعملها الباحثون والمطورون لتقطيع النص 
العربي أداة [tv] TOKAN‏ وهي تحتاج إلى إجراء تحليل صر للنص حتى 
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تتمكن من تقطيعه» وهو ما توفره أداة MADA‏ وهي متاحة مع TOKAN‏ كباقة 
واحدة للتحميل من LEA]‏ وتحتوي الباقة -بالإضافة إلى المحلل pall‏ 2 والمقطع- 
على أدوات أخرىء» منها أداة لتسوية النص Orthographic Normalization‏ وأداة 
لتحويل النصوص العربية الى ترميز ASCI‏ وفق طريقة Buckwalter‏ كما شرحنا 
4 الفصل السابق» وغير ذلك. 


ومن الأدوات المتاحة أيضًا AMIRA-TOK‏ وهي إحدى الأدوات التي تتضمنها 
باقة AMIRA‏ ] £4[ التي تضم أدوات لتنفيذ العديد من المهام الأساسية 2 معالجة 
اللغة العربية» وهي متاحة للتحميل من[ 5٠‏ ]؛ و تصل دقة التقطيع 2 AMIRA‏ إلى 
4٩ ,۲ = 1‏ مع العلم Ob‏ التقطيع الذي يجريه البرنامج لا يتعامل مع كل حالات 
التصريف وبالتحديد ما كان داخليا كال .Inflectional Morphology‏ 


التحليل الصريك Morphological Analysis‏ 
يقصد بالصرف Morphology‏ تحويل الأصل أو الجذر من الكلام إلى أبنية 
وأشكال مختلفة تحمل دلالات معنوية مرتبطة بمعنى الجذرء ومن أشكال الصرف: 
الجمع والتثنية والتأنيث واسم الفاعل واسم المفعول والصيغ الزمنية للأفعال: 
مضارع وماضي وأمرء وصيغ المبالغة. [oy Jal‏ ومثال على ذلك 2 اللغة العربية 
الجذر "ذهب" الذي يمكن أن يأتي # التصريفات التالية: يذهب و"يذهبون" 

g‏ يذهبان و"تذهبان" و"الذاهب" و"الذاهبون" و"الذاهبات" ... إلخ. 

وتهدف عملية التحليل الصرك للكلمات إلى دراسة بنية الكلمة بغرض التعرف 
على القسم الصرك لهاء كتحديد هل هي جمع isp deal‏ صيغة تذكير al‏ تأنيث, 
صيغة ماض al‏ مضارع آم أمر للأفعال ... إلخ؛ كما تهدف إلى تحديد جذر الكلمة 
وتحديد الزوائد التي أدخلت على الجذر. 
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ويميز الدارسون لعلم التحليل Ze eaa‏ بين نوعين من التحليل [vv]‏ 

أولا: تحليل معتمد على النوع أو الشكل Form-based Morphology‏ : ويقصد 
بهتحديد مجموع "المورفيمات" Morhpemes‏ المكونة للكلمة وأنواعها. و"المورفيم" 
هو أقل لفظة 2 اللغة تفيد Giaa‏ متضمتا فيها (قد تكون ja‏ $ من كلمة — كضمير 
ana‏ مكلا ) دروالمورغيمات التق تتكون متها Stem esed fad calde‏ مكل "كتنب" 
.2 كلمة ' تكتبين" ؛ والاضافات السابقة prefixes‏ مثل "eal"‏ التي تدخل على 
الجذع للدلالة على كون الفعل مضارع للانثى الغائبة أو المذكر المخاطبء والإضافات 
اللاحقة suffixes‏ مثل ين" فتصبح الكلمة کن" للدلالة على توجيه خطاب 
للأنشى .2 صيغة الفعل المضارع. والإضافات الداخلية infixes‏ كدخول الألف 
على الفعل فتحوله إلى صيغة اسم الفاعل كما ف "كتب" - SIS”‏ ويعتبر من 
المورفيمات أيضًا الزوائد التي تحمل خصائص كلمة منفصلة ولكنها تأتي متصلة 
مع الكلمة 4 الكتابة مثل "أل" التعريف والضمائر المتصلة مثل "هم" 2 "كتابهم". 

ثانيًا: تحليل معتمد على الوظيفة :Function-based Morphology‏ ويقتصد 
بها تحديد الدور الإعرابي والدلالة المعنوية التي تنتج عن دخول كل مورفيم على 
الكلمة. وتنحصر وظائف المورفيمات المختلفة 2 ثلاثة أنواع رئيسية: 


أولا: تصريف اشتقاقي :Derivational Morphology‏ ويقصد به أن دخول 
Las) al, be col a dagli‏ بها Buyin DIS‏ فد "حافس" "eem Vgl‏ 
ودخول مورفيم زائد عليها جعلها تعنى مكان الصلاة 2 المعنى الدارج للكلمة 
و"جامعة" كذلك أصلها tma‏ ودخل عليها مورفيمان فأصبحت تعني مكان 
للتدريس 2 المعنى الدارج للكلمة. 


ثانيًا: تصريف إعرابى :Inflectional Morphology‏ ويقصد به دخول 
المرفيمات على الكلمة بغرض تحديد الزمن» أو الجنسء أو حالة الخطابء أو العدد 
كما أوضحنا 2 الأمثلة السابقة. 
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Lus‏ تصريف إلحاقي :Cliticization Morphology‏ ويقصد به أن يلحق 
آنمًا مثال دخول أل التعريف على أول الكلمة أو أحد الضمائر المتصلة على آخرها. 
الشكل Y‏ يوضح نظام الاشتقاق والتحويل بين الكلمة وجذعها وجذرها ودور 


عمليات التصريف 2 هذا الاشتقاق [oy]‏ 


توليد صرفي 


تطبيق أنماط التحويل إضافة ملحقات 


تحديد نمط التحويل إزالة ملحقات 


» 


شكل Y‏ : نظام الاشتقاق الصريك والعلافة بين الكلمة وجذعها وجذرها 


ولعلم الصرف .2 اللغات المختلفة قواعد وقوانين تضبط عمليات الصرف 
وتحدد أشكال وأنواع الصرف التي تصلح لكل سياق وطريقة تنفيذ هذا الصرف. 
وبقدرما تكون هذه القواعد ALI‏ ومحددة تكون حوسبة التحليل pall‏ 2 أسهل. 
وتعتبر اللفة الانجليزية مثلا من اللفات التي لها نظام تصريف سهل. ب4 حين تعتبر 
اللغة العربية من اللغات الغنية من الناحية الصرفية بمعنى أن هناك الكثير من 
الأشكال والآبنية الصرفية التي يمكن تكوينها من الجذر الواحد مقارنة بمعظم 
اللغات الأخرىء» وهناك الكثير من القواعد والقوانين التي ينبغي مراعاتها عند 
تصريف الكلمات. ولذلك يعتبر التحليل a‏ 2 من أبرز وأهم المهام التي يعنى 
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بها الباحثون ‏ مجال معالجة اللغة [rv] à as pall‏ ولذلك تجد أن بحوثا كثيرة 
قد تناولت هذه الجزئية ٠١ Jati)‏ 04-407]) واقترحت طرق متعددة لإجراء 
التحليل Lal‏ , 2 للنصوص العربية. ويمكن للقارئ المهتم أن يرجع إلى أحد 
الاسقصاءات المنشورة 2 هذا الموضوع والتي حصرت الطرق المختلفة وقارنت 
بينها (مشال:[07]). حيث اقترح المؤلفون تصنيف الطرق المختلفة لحوسبة 
عمليات التحليل الصرك إلى أربعة أقسام: 


أولا: البحث 2 جدول شامل Table Lookup Approach‏ و فیھا يتم تخزين 
كل الكلمات العربية الممكنة 2 جدول كبير يحتوي أيضًا تفكيك كل كلمة إلى مكوناتها 
من المرفيمات. هذه الطريقة تحتاج إلى جهد بشري كبير لبناء هذا الجدول. 

ثانيًا: الطريقة اللغوية :Linguistic Approach‏ وفيها يقوم خبراء ج اللغة 
وقواعد الصرف فيها بصياغة مجموعة من القوانين التي تحكم عمليات الصرف 
لأكبر عدد ممكن من الكلمات. ويتم تغذية الحاسوب بهذه القوانين حتى يستخدمها 
لتحليل الكلمات [oo]‏ 

الفا طريقة التوافيق :Combinatorial Approach‏ و2 هذه الطريقة يتم 
تجريب كل المجموعات التي من الممكن تشكيلها من حروف الكلمةء ويتم بعد ذلك 
مقارنة كل مجموعة من تلك المجموعات بقائمة شاملة بالجذور العربية TOOTS‏ 
وقوائم للملحقات suffixes‏ [ ده -ل/اه ]. وهذه الطريقة مكلفة من حيث احتياجها 
لطاقة حوسبة أعلى حتى تتمكن من اختبار كل المجموعات الممكنة 4 وقت معقول. 

رابعًا: طريقة الأنماط :Pattern-based Approach‏ وتعتمد هذه الطريقة على 
تحديد عدد من الأنماط المتكررة ب الكلمات العربية من حيث التركيب yall‏ 2 
وتطبيق هذه الأنماط على الكلمات من أجل تحليلها [oa]‏ 


ونحيل القارئ المهتم إلى المصادر المشار إليها 2 هذا الفصل للتعرف أكثر 
على الطرق المستخدمة 2 التحليل الصرك للكلمات العربية. 
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ومن أدوات التحليل الصرك المتاحة للباحثين والمطورين باقتا MADA‏ و 
AMIRA‏ اللتان تمت الإشارة إليهما 2 الفصل السابقء ومنها أيضًا BAMA‏ 
Stan-) SAMA 5 [41,59] (Morphological Analyzer Buckwalter Arabic)‏ 
(Morphological Analyzer dard Arabic‏ ] . 3[ وهو مبني BAMA.‏ إلاإنه 
zb bons saa‏ 


ومن الأدوات ElixirFM Lá‏ ويتوفر له عرض لتجريبه من خلال واجهة 
يمكن تشغيلها عبر المتصفح ] D‏ كما أنه متاح للتحميل المجاني 1 Dw‏ 
التجديع Stemming‏ 

هي عملية يتم إجراؤها على الكلمة وتهدف إلى تحويل الكلمة إلى صورة 
أبسط بحيث تكون أقرب ما يمكن إلى جذع أو جذر الكلمة وذلك من خلال إزالة 
الزوائد الصرفية التي تدخل على أصل الكلمة. فمثلا جذع كلمة computer‏ -2 
اللغة الإنجليزية هو comput‏ وكذلك جنع كلمة computing‏ هو comput‏ ومثلهم 
324[ كلمات computed‏ و computers‏ و computation‏ كل هذه الكلمات لها جذع 
واحد هو -comput‏ ونلاحظ هنا أن comput‏ 2 حد 3 Lil‏ ليست كلمة صحيحة 2 
اللغة الانجليزية وليست هي الجذر الذي اشتقت منه الكلمات الأخرى ولكنها قريبة 


جدًا من الجذر. 


وتقوم عملية التجذيع هذه على افتراض أن الكلمات المشتقة من نفس الأصل 
تحمل نفس المعنى أو معاني متقاربة جدًا 2 الغالبية العظمى من الحالات» وعليه 
فإن الهدف الأساسي من عملية التجذيع هو تحويل كل كلمة 2 النص إلى أقرب ما 
يمكن من أصل هذه الكلمة بحيث لا يعود هناك اختلاف بين comput- ; computer‏ 
computing » ers‏ وعند مقارنة النصوص لاحتساب مدى تشابه نص مع نص آخر 
يتم التعامل مع كل هذه الكلمات على أنها كلمة واحدة. 
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ويتم اللجوء إلى عملية التجذيع ب4 كثير من تطبيقات معالجة SLU‏ ومن 
أمثلة ذلك عمليات الفهرسة indexing‏ التي تقوم بها أنظمة استرجاع المعلومات 
Information Retrieval‏ كمحركات البحث وما شابههاء cola‏ عندما تبحث عن 
كلمة Computers‏ عبر al‏ محركات البحث» فلن يكون من الخطأ أن يعرض لك 
محرك البحث نتائج فيها كلمة Computer‏ أو Computing‏ ] 15-77 ]. ومثل ذلك 
أيضًا التطبيقات التي تحتاج إلى احتساب مقدار التشابه بين النصوص.ء كتطبيقات 
تصنيف النصوص Text Classification‏ | وتطبيقات تجميع النصوص المتشابهة 
Text Clustering‏ | وكذلك تطبيقات كشف النسخ 2 المنشورات Plagiarism De-‏ 


.tection 


وتعتمد أغلب خوارزميات تجذيع الكلمات على مجموعة من القواعد والقوانين 
المعدة بشكل يدوي» وتختلف هذه القواعد من لغة إلى لغةء ولكن الرابط المشترك 
بينها كلها آنها تحاول أن تزيل الزوائد الصرفية التي تدخل على الكلمة. ويعتبر هذه 
النوع من الخوارزميات الأشهر والأكثر استخدامًا بسبب سهولة تطبيقه وسرعة 
تشغيله على النصوص وعدم حاجته إلى قوائم كلمات أو قواميس. وتعتبر خوارزمية 
|J! Porter‏ اقترحها (Y4A* ale) Matrin Porter‏ أشهر هذه الخوارزميات للغة 
الانجليزية ومازالت مستخدمة على نطاق واسع حتى اليوم [ho]‏ 

Ling‏ مجموعة أخرى -ولكنها أقل شيوعًا- من خوارزميات التجذيع تعتمد 
على رصد خصائص إحصائية للكلمات. وذلك من خلال إيجاد الكلمات المتشابهة 
التي تظهر Leo‏ بشكل متكرر 2 النصوص المختلفة ثم اختيار الكلمة الأقصر من 
بين كل هذه الكلمات لتكون هي الجذع الذي ترد إليه كل الكلمات الأخرى HVA]‏ 
[3v‏ ولكن هذه الطريقة تحتاج إلى توفر كميات كبيرة جدًا من النصوص تكفي 
لاحتساب علاقات إحصائية ذات معنى بين الكلمات. والميزة الأساسية لهذا النوع 
من الخوارزميات هو قدرته على تجذيع التصريفات الغير قياسية feet; foot Jis‏ 
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وهو La‏ تفشل الخوارزميات المعتمدة على القواعد المصاغة يديويًا 2 التعامل معه. 
الميزة الاخرى لهذا النوع من الخوارزميات هو أن الخوارزمية نفسها يمكن تطبيقها 
على أكثر من لغة. 2 حين أن القواعد المصاغة يديويًا تختلف بحسب اللغة وتحتاج 
إلى خبير لغوي حتى يتمكن من تحديد تلك القواعد. 


اللفة العربية تعتبر من اللفات التي يصعب تطبيق التجذيع فيها لعدة أسباب 
أهمها الثراء الصرخ لها وكون الزوائد الصرفية تدخل على الكلمة -2 أولها 
ووسطها وآخرهاء مما يجعل صياغة قواعد للتجذير عملية صعبة ومعقدة Nop‏ 
هذا بالإضافة إلى الجدل بين الباحثين حول درجة التجذيع اللازمة 2 اللغة العربية 
بحيث تحقق ما تحتاجته تطبيقات استرجاع المعلومات أو تصنيف النصوص بين 
من يرى أن الاقتراب من صورة الجذع يكفي وبين من يرى ضرورة إيجاد جذر 
الكلمة الثلاثي أو الرباعي [M]‏ 


وقد اقترحت عدة طرق لتجذيع الكلمات العربية منها ما يعتمد على قوائم 
معدة يدويًا تحتوي كل كلمة وجذعها ( أو جذرها) [A7]‏ ومنها ما يعتمد على 
صياغة قواعد شبيهة Las‏ تقوم به خوازمية porter‏ 2 اللفة الانجليزية (مثال 
.(LoA]‏ ومنها كذلك ما يعتمد على الطرق الإحصائية [ [viv‏ 

ومن أدوات التجذيع المتاحة للاستعمال من قبل الباحثين والمطورين Blal‏ 
[vv] Khoja Stemmer‏ التي تستخدم مجموعة من القوانين المصاغة يدويًا 
لحذف الزوائد» ومجموعة من الأنماط والقوائم لاستخراج الجذع gh)‏ الجذر). 
تأصيل الكلمة Lemmatization‏ 

وهي عملية شبيهة lo‏ من حيث الهدف بعملية التجذيع Stemming‏ ولكنها 
تختلف عنها من عدة نواحي أهمها أن الأصل الناتج عن العملية هو كلمة صحيحة 
-2 اللغة وتكون 2 الغالب هي أبسط شكل للكلمة: ففي المثال الوارد 2 الفصل 


السابق» فإن أصل كلمة computes computers‏ (قارنە بالجذع (comput‏ . الفارق 
الآخر هو أنها تقوم بتحويل الكلمة إلى كلمة أخرى إذا استدعى الأمر ذلك بشكل لا 
تستطيع أغلب خوارزميات التجذيع القيام به. مثال ذلك تحويل ares is‏ و am‏ إلى 
be‏ وكذلك better‏ الى good‏ وهكذا. 


وتعتمد أغلب خوارزميات تأصيل الكلمات على استخدام قوائم بالكلمات 
المختلفة وأصولها مع دمج ذلك مع بعض القوانين البسيطة لجعل حجم تلك القوائم 
NU‏ 
تصنيف أقسام Part of speech tagging e MSS)‏ 

وهي واحدة من العمليات الأساسية اللازمة للكثير من تطبيقات معالجة 
اللغات» ويتم فيها تصنيف كل كلمة 4 النص بحسب حالتها الصرفية وبحسب 
سياقها الإعرابي. كتصنيف الكلمة كفعل ماض أو اسم بصيغة الجمع أو أداة عطف 

والصعوبة الأساسية 2 هذه العملية تكمن ‏ ضرورة أخذ السياق الذي ترد 
فيه الكلمة 2 عين الاعتبار وذلك بسبب الغموض الذي يكتنف بعض الكلمات إذا ما 
عوملت منفصلة عن سياقها. مثال لذلك ب2 اللغة العربية كلمة "ذهب" فقي بعض 
السياقات هى اسم معدق كتين 2,5 lla‏ أخرى هئ دل عاض aal‏ الفاق 


يعرض شكل Y‏ مثالين أحدهما باللفة الإنجليزية والآخر باللفة العربية 
يوضحان نتيجة تطبيق عملية تصنيف أقسام الكلام على النص. الرموز الظاهرة 
-2 المثالين VBZ Sie‏ و NN‏ و SPRP‏ وغيرها Tags oui‏ وکل منها یرمز إلى 
أحد أقسام الكلام Part-of-speech‏ « فمثلا 2 تشير إلى الفعل المضارع للمفرد 
.2 اللغة الإنجليزية. 
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My son also likes eating meat 


./. My/PRPS son/NN also/RB likes/VBZ eating/VBG meat/NN 


تعجبني الأفكار الإبداعية ويسعدني أن أساهم في إجاحها 


IN/O! يسعدني/1782‎ CC/ 5 DTNN/Axe Y! الافكار/1717171‎ VBP/ us 
NNP ./PUNC/.es 3l في/121‎ VBP/ea ual 


شكل ": نتيجة تطبيق عملية تصنيف أقسام o SISTI‏ على جملة إنجليزية 


وأخرى عربية 


ويتم تعريف الأقسام Parts-of-speech‏ التي يتم تصنيف الكلمات إليها من 
قبل علماء اللغويات» الذين يعرفون مجموعة من الأقسام تسمى TagSet‏ . ولكل لغة 
من اللغات أصناف مختلفة من الكلام تختلف بحسب الثراء الصرك والقواعدي 
لتلك اللغة. كما أن اللغة الواحدة قد يلجأ العلماء فيها إلى تعريف أكثر من Tag-‏ 
Set‏ تختلف 24 درجة تفصيلها. Sid‏ أبسط TagSet‏ 2 اللفة العربية ممكن 
أن تحتوي ثلاثة أقسام فقط: اسم وفعل وحرف. 2 حين أنه من الناحية النظرية 
ممكن تعريف عدد قد يزيد على ۲۲۰۰۰۰۰ قسم! 

ومن أشهر التقسيمات المستعملة 2 à all‏ العربية Buckwalter TagSet‏ 
بصورتيها المخصصة للكلمات المقطعة Tokenized‏ (وهي الأكثر شيوعًا وتضم 
قرابة * *0 قسم) وغير المقطعة Untokenized‏ وتصل أقسامها إلى عشرات 
الآلاف. 2-9 حالة تقسيم الكلام Tokenization‏ فإن الكلمة الواحدة تنقسم إلى 
مكوناتها الصرفية وكل من تلك المكونات يكون تابعًا لقسم مختلف. 

هذا بالإضافة إلى العديد من التقسيمات الأخرى التي حاول بعضها اختصار 
Buckwalter TagSet‏ بهدف تقليل عدد التقسيمات وتسهيل عملية التصنيف 
[vw]‏ 


E 


وتستخدم معظم خوارزميات تصنيف أقسام الكلام IL‏ تقنيات تعلم 
à TII‏ وذلك من خلال إعداد كمية كبيرة من النصوص والاستعانة بخبراء ب 
abl!‏ لتحديد القسم الذي تتبع له كل كلمة 2 النصء ثم يتم استخدام هذا النص 
المصنف لتعليم خوارزميات تعلم الالة كيفية إجراء التصنيف لنصوص جديدة غير 
تلك التي تعلمت منهاء ومن أشهر تقنيات تعلم الالة المستعملة هنا: Hidden Mar-‏ 
.[v4] Conditional Random Fields; [vA-vv ] kov Models‏ 


وغاليًا ما تسمى المجموعات النصوصية المستعملة 2 تعليم خوارزميات تعلم 
الآلة على تصنيف أقسام الكلام والإعراب وما شابههما ب Treebanks‏ ومن أشهر 
هذه المجموعات 2 Penn Treebank Way plas!‏ ومن أشهرها ج اللغة العربية 
"penn Arabic Treebank‏ . 


Stanford Log- أيضًا‎ [gis فصول سابقة. و‎ 2 Legal وقد سبقت الإشارة‎ MADA 
على النصوص‎ ٩1 , 0 و الذي تصل دقته إلى‎ linear Part-Of-Speech Tagger” 
و يعتبر من أفضل الأدوات المتاحة و أسهلها 2 الاستخدام» كما أنه‎ ]۸٠[ العربية‎ 
يدعم لغات أخرى.‎ 


ومن أدوات 5 ةم أقسام الكلام المتاحة للمطورين أداتا s AMIRA‏ 


التشكيل الآلي Automatic Diacritization‏ 
وهي من الوظائف المهمة 2 اللغة Ay pall‏ وذلك GY‏ نطق أحرف اللغة العربية 
يختلف باخت لاف تشكيل الحرف, وتختلف تبعًا لذلك المعاني والبنية الإعرابية 
للجملة والعديد من الخصائص اللغوية للنص. ومع ذلك ola‏ أغلب النصوص 
العربية المنتشرة ب الكتب وعلى الإنترنت تخلو من التشكيل إما UIS‏ أو >55 أما 

النصوص المشكلة تشكيلا US‏ فهي نادرة جدًا. 


(1)  http;//www.cis.upenn.edu;-treebank; 
(2)  https:/;catalog.ldc.upenn.edu;LDC2003T06 
(3)  http://nlp.stanford.edu/software/tagger.shtml 
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وهذه الظاهرة 2 اللفة العربية تتسبب -2 حالة التباس كبيرة تجعل من 
الضروري الاعتماد بشكل أكبر على السياق لفك الالتباسات. ومن أشهر التطبيقات 
التي يعتبر توفر التشكيل فيها أساسيًا وضروريًا: توليد الأصوات العربية Arabic‏ 
Speech Synthesis‏ حيث يكون من الضروري تحديد تشكيل كل حرف .2 الكلمة 
حتى تتمكن آلة توليد الصوت من إخراج الصوت المناسب للحرف. وكحل لهذه 
المشكلة اقترحت بعض البحوث بناء أنظمة لإضافة التشكيل الآلي» وأغلب هذه 
الطرق تعتمد على تقنيات تعلم الآلة أو تقنيات هجينة تجمع بين تعلم الآلة وبين 
القواعد المصاغة يدوا وتستخدم أغلب هذه الطرق خصائص لفظية Lexical‏ 
> وخصائص صرفية Morphological‏ وخصائص نحوية Syntactic‏ لتدريب 
خوارزميات تعلم الآلة على إجراء عمليات التشكيل الآلي. ومن أمثلة الأبحاث التي 
تناولت الموضوع ونحيل القارئ المهتم إلى مطالعتها: [ivo]‏ 


وتصل دقة أنظمة التشكيل الآلي إلى؟, 8/8 وذلك 2 تحديد تشكيل نهايات 
الكلمات كما 2 الطريقة المنشورة 4[ [At‏ التي تستخدم تقنيات التعلم العميق 
Deep Learning‏ لتنفين المهمة. 


كما تتضمن باقة MADA‏ التي أشرنا إليها سابقا أداة للتشكيل الآلي تصل 
دقتها 2 كشف حركات نهايات الكلمات إلى Y‏ , 704 و يمكن للباحثين و المطورين 
استعمالها. 


تحليل البناء النحوي Syntactic Parsing‏ 

وتهدف هذه العملية إلى كشف بنية الجملةء وتحديد العلاقات النحوية بين 
الكلمات والعبارات 2 الجملةء كتحديد الأقسام البسيطة التي تتكون منها الجمل 
المركبة وأدوات الربط بين تلك الأقسام» مثال ذلك الجمل التي تحتوي على شرط 
وجواب شرط وأداة شرط تربط بينهما. وكذلك تحديد الكلمات التي تكون معًا 
عبارة اسمية Noun Phrase‏ أو عبارة فعلية Verb Phrase‏ . وغالبًا ما يتم تمثيل 


E 


هذه العلاقات 2 صورة شجرة جذرها 2 الأعلى ويمثل كل تفرع من تفرعات 
الشجرة قسم من الجملة: كما تمثل كل ورقة من أوراق الشجرة النهائية كلمة من 
كلمات الجملة أو علامات الترقيم فيها (والقسم Part of speech‏ الذي تتبع له) . 
Los‏ هار ذه n ba xci‏ نعو d‏ ف Sau ao‏ را Jas Sate‏ 
iho‏ والنقطة VP‏ تمثل جملة dled‏ والنقطة SBAR‏ تمثل جملة تابعة كجملة 
جواب الشرط أو الجملة المعطوفة. الشكل É‏ يوضح التمثيل الشجري لنتيجة تحليل 
البناء النحوي لجملة عربية. 


DTNN; 


الابداعية الافكار 


شكل ؛ : التمثيل الشجري للبناء النحوي لجملة عربية 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


ويلاحظ أن عملية الإعراب النحوي تتضمن تصنيف أقسام الكلام لكل كلمة 
وتزيد عليها بالذهاب إلى مستوى أعلى من التحليل يشمل تصنيف أقسام أشباه 
الجمل والتعبيرات الاسمية أو الفعلية أو أدوات الربط» وغيرها مع تمثيل هذا كله 2 
شكل شجري يعبر عن البنية النحوية للجملة. وتسمى هذه العملية أحيانًا بالإعراب 
العميق Deep Parsing‏ وذلك بغرض التفرقة بينها وبين الإعراب السطحي Shal-‏ 
low parsing‏ الذي يكتفي بتحديد أقسام الكلمات وتحديد العبارات الاسمية 
والعبارات الفعلية دون تحديد البنية الكاملة للجملة. 


وتعتمد تقنيات الإعراب النحوي على تعريف قواعد النحو الحاكمة للغة 
وتمثيلها بشكل يفهمه الحاسوب ثم تطبيق هذه القواعد على الجمل لتحديد 
الإعراب الصحيح للجملة. وتنقسم خوارزميات الإعراب النحوي من حيث 
كيفية استخدام قواعد النحو إلى خوارزميات تستمعل طريقة الصعود Bottom-‏ 
up‏ وأخرى تستعمل طريقة النزول Top-down‏ الأولى تبدأ من الكلمات ( أوراق 
الشجرة) وتبدأً بتطبيق القواعد النحوية التي تحتوي تلك الكلمات صعودًا حتى 
الوصول إلى جذر الشجرة ( الذي يمثل جملة مكتملة). al‏ الطريقة الثانية فتبداً 
من القوأعد النحوية التي تتضمن جذر شجرة ( أي تركيبة جملة كاملة) نزولا حتى 
الوصول إلى الأوراق (الكلمات). 

وتحتاج خوارزميات الإعراب أن يتم تزويدها بقواعد النحو الخاصة باللغة 
حتى تتمكن من تطبيقهاء ويتم تمثيل قواعد النحو حاسوبيًا على شكل مجموعة من 
القوانين التي تمرف 2 المسموح وجودها 2 الجملة. الشكل يحتوي مثال إيضاحي 
لبعض قواعد النحووطريقة تمثيلها وكيفية استخد امها لإعراب جملة عربية Tho]‏ 

وتحتاج عملية الإعراب إلى معرفة المعنى المقصود كذلك وليس قواعد النحو 
فقطء فالجملة الواحدة — إذا ما تجاهلنا معناها المقصود - فإنها قد تحتمل أكثر 


من تركيب نحوي. 
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ولذلك فإن العديد من خوارزميات الإعراب شائعة الاستخدام حاليًا تلجأ إلى 
الطريقة الإحصائية Statistical Approach‏ والتي تهدف إلى إعطاء قيمة احتمالية 
لكل قاعدة من قواعد التركيب النحوي بحسب مقدار تكرر استعمالها 4 سياق 
الجملة التي يراد إعرابهاء كما أنها تعطي درجة احتمالية لكل شجرة من الشجرات 
النحوية العديدة التي يمكن بناؤها للجملة الواحدة: وعادة ما تستخدم خوارزمية 
بحث Viterbi algorithm fis‏ للبحث عن أفضل شجرة 2 فضاء الشجرات المحتملة 
(دون الحاجة لاحتساب احتمالية كل شجرة بالكامل) . ويتم تعلم القيم الاحتمالية 
للقواعد من خلال استخدام مجموعات نصية مصنفة ومعربة Treebanks‏ كتلك 
المستخدمة 2 عملية تصنيف أقسام الكلام التي أشرنا إليها 2 الفصل السابق. 


الشجرة الإعرابية ل أشرب القواعد وشرحها باللغة العربية 
11 
شايا لذيذا 


الجملة يمكن أن تكون جملة 
فعلية 
الجملة الفعلية تتكون من فعل 


وعبارة اسمية 


S => VP 


VP => V NP 


العبارة الاسمية يمكن أن تتكون E => ix‏ 


من اسم وصفة 


شكله : مثال يوضح طريقة تمثيل قواعد اللغة وتطبيقها لاعراب Alem‏ 


الحرفالعربي والتقنية 
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ومن أدوات الإعراب المتاحة للباحثين والمطورين «The Stanford Parser”‏ 
وهي تدعم اللغة العربية إلى جانب الإنجليزية والصينية والإسبانية؛ ويمكن 
استخدام نفس الأداة لتصنيف أقسام الكلام كذلك .Part-of-speech tagging‏ 
ومن الأدوات أيضًا Bikel’s Parser?”‏ ]۸1[ والتي تدعم اللغة العربية والإنجليزية. 


نتحليل العلاقات الاعتمادية (الاعراب) Dependency Parsing‏ 

وهونوع آخر من التحليل البنائي للجمل ولكنه يهدف إلى تحديد العلاقات 
بين الكلمات وتبيان أي الكلمات أو التعابير تعتمد معنويًا أونحويًا على كلمات أو 
تعابير أخرى مع توضيح نوع الارتباط الذي يجمع بينهماء ومن أمثلة ذلك ارتباط 
الاسم بالفعل 2 جملة عندما يكون الاسم فاعلا كما .2 "شرب الطفل الحليب". 
الفعل "شرب" مرتبط بعلاقة اعتمادية مع الاسم 'الطفل" حيث أن الطفل هو 
re Lal‏ وبالمثل كلمة Guba!”‏ مرتبطة بالفعل ' شرب" لكونها المفعول به. وقد 
تكون العلاقات التي تربط مكونات الجملة علاقات معنوية Semantic‏ أو علاقات 


نحوية sSyntactic‏ علاقة تصريفية Morphological‏ . 


ويوضح الشكل I‏ مثال لجملة عربية (آية قرآنية من سورة الملك) وإعرابها 
والعلاقات الاعتمادية بين مكوناته) """. 


(1)  http;/;nlp.stanford.edu/software/lex-parser.shtml 
(2) Mhttp;/web.mit.edu/6.863,tools;dbparser; 


JÈL 0‏ مأخوذ من موقع المجموعة النصية القرآنية 
http://corpus.quran.com‏ 
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شكل 5: العلاقات الاعرابية والاعتمادية بين مكونات آية: تبارك الذي 


بيده المللك. 


وقد تناولت العديد من الأبحاث دراسة تحليل العلاقات الاعتمادية 2 اللغة 
العربيةء وقد ركزت 4# معظمها تطبيق الخوارزميات المستخدمة 4# اللغات الأخرى 
على اللغة العربية مع إضافة خصائص صرفية وبنيوية إضافية تخص اللغة العربية 


حتى تساعد الخوارزميات على تحسين دقة الإعراب للجمل العربية [/41/-350]. 


ومن أدوا تالاعراب المتاحة للباحثين والمطورين TurboParser!‏ ] 91 ]. 
تمييز أسماء الكيانات (الأعلام Named-Entity Recognition(‏ 
كشير من تطبيقات معالجة اللغات تتطلب أن يتمكن التطبيق من تمييز أسماء 
الكيانات ومعالمتها بشكل خاص عند معالجة النصء وتشمل أسماء الكيانات .3 
الغالب أسماء الأشخاصء وأسماء الهيئات» وأسماء الأماكن كالدول والمحافظات 
والمدن. وأحيانا تضاف إليها الأزمنة وأشياء أخرى. هذه هي التصنيفات الشائعة 


(1)  http.//www.ark.cs.cmu.edu/TurboParser; 


١6 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


2 أغلب التطبيقات» ولكن قد تحتاج بعض المجالات إلى تحديد أصناف أخرى من 
Asal‏ الأعلام فمثلا 2 التطبيقات الطبية تجد أصناف من مثيل أسماء الجينات 
TENE‏ البروتينات shily‏ الأمراض "emn‏ الأدوية. 

dept de siio cass اد كفن خب‎ ups Slash کن ا‎ VOR 
بعد تطبيق أحد الخوارزميات العامة لتمييز أسماء الكيانات على تلك الجملة.‎ 


عقدت جامعة الدول العربية اجتماعًا برئاسة أحمد العربي 
لمناقشة أوضاء القدس 


عقدت [جامعة الدول العربية] ‏ , اجتماعًا برئاسة[ أحمد 
العربى]. _ لناقشة أوضاع [القدس]_ 


شكل V‏ مثال يوضح نتيجة تطبيق خوارزمية تحديد أسماء الأعلام على نص عربي. 


وتحتاج العديد من التطبيقات لهذه العملية بشكل أساسي حتى لا تخلط 
بين أسماء الكيانات التي ينبغي معاملتها كتعبير واحد كل الوقت» وبين الكلمات 
المتفرقة؛ ومن هذه التطبيقات أنظمة اشتقاق المعلومات Information Extrac-‏ 
tion‏ وأنظمة الإجابة الآلية Question Answering Systems alin W‏ ومحركات 
البحث Search Engines‏ والترجمة الآلية -Machine Translation‏ 


وكغيرها من وظائف معالجة اللغات. فإن التقنيات المستخدمة لتمييز أسماء 
الكيانات تنقسم بشكل أساسي إلى خوارزميات تستخدم قواعد وقوانين مصاغة 
يدوا تمرف الحاسوب على الأنماط النصية التي تظهر فيها أسماء الكيانات, 
وخوارزميات أخرى إحصائية Statistical‏ -وهي المستخدمة الآن- وتعتمد على 
تقنيات تعلم الآلة. ومن أشهر التقنيات المستخدمة حاليًا Conditional Ran-‏ 
dom Fields‏ إلا Lgil‏ تحتاج إلى توفر كميات كبيرة من النصوص التي يتم تحديد 
أسماء الكيانات فيها يدويًا لاستخدامها لتدريب الخوارزمية. ومن الطرق التي 


LA 


أظهرت جدوى وهي أيضًا تحتاج إلى كمية كبيرة من النصوص -ولكن كمية الجهد 
اليدوي اللازم فيها أقل- تلك الطرق التراكمية التي تبدأً بمعرفة كمية قليلة من 
أسماء ELS!‏ وتتعلم الأنماط التي تظهر فيها بشكل متكررء ثم تستخدم هذه 
الأنماط للتعرف على المزيد من أسماء الكيانات» ثم منها تتعرف على مزيد من 
الأنماط وهكذا. وقد لخص البحث الاستقصائي المشار إليه 2 [v]‏ أبرز الطرق 
المستخدمة لتحديد أسماء الكيانات وقارن بين تلك الطرق» وعلى الرغم من كون 
البحث منشورًا 2 ۲۰۰۷ إلا أن تقنيات تحديد أسماء الكيانات كانت قد وصلت 2 
ذلك الوقت إلى درجة عالية جدًا من الدقةء ولم تشهد أي تطور كبير خلال الفترة 
التالية. 


Lal‏ 2 اللغة العربية فقد ظهر الاهتمام بهذا الموضوع متآخرًا بعض الشيء. 
وقد رصد الاستقصاء المشار إليه 2 LAY]‏ أبرز ما يخص اللغة العربية 4 هذا 
الموضوع من تحديات» ولخص أهم الطرق المستخدمة فيه وعرض تقييمًا لكل منها. 

وتعتبر عملية تمييز أسماء الكيانات 2 اللغة العربية أصعب نسبيًا من اللغات 
الأخرى. ومن أسباب ذلك مثلا أن اللغة العربية لا يوجد 2 طريقة كتابتها أي 
علامة تميز أسماء الكيانات على خلاف اللغة الإنجلزية مثلا والتي تكتب فيها 
أسماء الكيانات Sepals‏ بأحرف كبيرة Capital Letters‏ وهي خاصية من eal‏ 
الخصائص التي تعطيها خوارزميات التعلم الآلي وزنًا كبيرًا بين الخصائص 
اللغوية الأخرى. ومنها كذلك الثراء y E‏ 2 للغة العربية والذي يسمح بدخول 
الزوائد على أسماء الكيانات وليس على الكلمات العادية فقطء مثل دخول الباء 
على "Aa"‏ فتصبح ' بمكة" أودخول النا على '"القدس" وإزالة أل التعريف منها 
فتصبح ' قدسنا" i‏ وهكذا. ومن التحديات أيضًا ندرة الموارد ذات الجودة العالية 
التي تحتوي قوائم بالأسماء كما يوجد ب اللغفات الأخرىء» ومنها كذلك غياب 
التشكيل عن معظم النصوص العربية وينتج die‏ غموض 2 كثير من الكلمات يجعل 
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عملية الاعتماد على السياق لحل الغموض عملية مهمة وحساسة» وتحديات أخرى 
مشروحة بالتفصيل 2 [؟1]. 


ومن الطرق التي اقترحها الباحثون لتمييز أسماء الكيانات 2 اللغة العربية ما 
طرح 2 ]40-48[ وهي تعتمد على مجموعة من القواعد المصاغة يدويّاء وما هو 
مطروح 2 ]4-41[ وهي طرق تعتمد على تقنيات تعلم الآلة. 


MEE 


وظائف اخرى 

بالإضافة إلى الوظائف التي استعرضناها 2 هذا الفصل هناك وظائف أخرى 
يتكرر الاحتياج إليها 2 معالجة اللغات: ونذكرها هنا أسماءها مع ترك إشارات 
لبعضي المراجع المفيدة فيها. ومنها تحديد الإشارات المتعددة للشيء الواحد Co-‏ 
reference resolution‏ (ارجع للاستقصاء (Laa]‏ .وتحليل الخطاب Discourse‏ 
t!) Analysis‏ لكتاب ٠ )]٠٠١[‏ وتمييز وتقسيم موضوعات النص Topic Rec-‏ 
[v v7 Tognition & Segmentation‏ وحل التباس معاني الكلمات Word‏ 
Sense Disambiguation‏ (ارجع للاستقصاء (D Y]‏ وغيرها. وهذه الوظائف 
مشار إليها هنا لم تنل حظا من الاهتمام البحثي فيما يتعلق باللغة العربية وهي بلا 
شك مجالات هامة ولازمة للغة العربية وتحتاج إلى من يبادر ويتصدر للبحث فيها. 
.Y‏ أشهر تطبيقات معالجة اللغات 

Lia (yt jaa Lye aly‏ اشير aediles cL 2d‏ لفات ad‏ نهدت تداعا 
Ls,‏ 2 اللفة العربية. وتستخدم هذه التطبيقات 2 أغلب خطوات تنفيذها 
الوظائف التي استعرضناها 4 الباب السابق. 


الترجمة الآلية Machine Translation‏ 
كما ذكرنا 4 بداية هذا البحثء فقد كانت الترجمة الآلية من أوائل تطبيقات 
معالجة اللغات التى لاقت اهتمامًا كبيرًا 2 الستينات وأوائل السعبينات من القرن 
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الماضيء ثم خفت الاهتمام بها بسبب النتائج المخيبة للآمال 4 ذلك الوقت؛ ثم 
عادت الأبحاث 2 هذا الموضوع لتنتعش 2 التسعينات من القرن الماضي وحتى يومنا 
هذا من قرننا الحالي. ويعتبر مجال الترجمة الآلية من المجالات البحثية الساخنة 
جدًا 2 الوقت الحالي» وقد حققت نجاحات وقفزات كبيرة وملموسة؛ ولم تعد تلك 
التقنيات مقصورة على البحث العلمي بل أصبحت من المنتجات المهمة 2 الصناعةء 
وتوجد ب الأسواق خدمات ترجمة آلية تقوم على تطويرها والترويج لها شركات 


كبيرة مثل Bing Translator‏ من مايكروسوفت Google Translates‏ وغيرها. 


ويعود الفضل 2 تحقيق القفزة الكبيرة 4 مجال الترجمة الآلية إلى بروز 
وانتشار الطرق الإحصائية Statistical Methods‏ .12.3 أن كانت عملية الترجمة 
تتطلب Lega‏ عميقا لقواعد ومعاني وتراكيب اللغة المصدر واللغة الهدف وصياغة 
قواعد وقوانين معقدة لترجمة النص. فإن الطرق الإحصائية أتاحت ترك استنباط 
هذه القوانين والقواعد لخوارزميات التعلم الآليء التي تستنبط هذه القوانين من 
خلال معالجة عدد كبير من المجموعات النصية المتوازية Parallel Corpora‏ بعد 
إجراء عملية ربط لكل جملة 2 المستند المكتوب باللغة المصدر إلى الجملة المقابلة 
لها 2 اللغة الهدف» Jaag‏ ذلك الربط أيضًا على مستوى الكلمات. وقد سهل انتشار 
الانترنت وتقنيات النشر الالكتروني كثيرًا من إمكانية توفير مثل هذه المجموعات 
A all‏ ومن أشهر المصادر لهذه المجموعات Ss‏ الأمم المتحدة التي تتم 
ترجمتها أولا بأول إلى كل لغات العالم الأساسيةء وكذلك ترجمات الكتب» وكذلك 
المواقع الالكترونية التي تحتوي صفحات متعددة LAU!‏ وغيرها. 

وكحال غيرها من تطبيقات معالجة اللغات فإن الفترة الأخيرة شهدت ميلا 
للجمع بين الطرق المعتمدة على القواعد المصاغة يدويًاء والطرق المعتمدة على تعلم 
الآلة. بحيث تصاغ بعض القواعد الضابطة التي تقيد وتحكم استخدام نتائج التعلم 
الآلي بهدف منع الوقوع 2 أخطاء يسهل ضبطها بالقوانين اللغوية. 


\og 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


وقد شهدت الترجمة الآلية من والى اللغة العربية اهتمامًا متزايدًا مؤخرًا 
ومن أمثلة ذلك: ترجمة عربي-إنجليزي ٠١5-٠١41‏ ] وعربي-فرنسي Drv]‏ 


aK) -A] وعربي-صيني‎ 


التلخيص Automatic Summarization (SI f‏ 
تهدف عمليات التلخيص الآلي إلى اختصار الكلام» وتقليل كمية النص إلى 
مقدار محدد يختاره المستخدم أو يفرضه التطبيق مع الحفاظ على eal‏ المعاني 
والمفاهيم الواردة 2 النصص. ويفرق البحاثون بين نوعين من التلخيص الآلي: أولا: 
الاختصار الاقتباسي Extractive Summarization‏ وفيه تكون جمل المللخص 
مقتطعة كما هي من نص المصدرء أي إن عملية التلخيص 2 هذه الحالة ما هي 
إلا عملية ترتيب للجمل حسب أهميتها ومقدار ما تحتويه من معلومات هامة وتفطي 
جوانب الموضوع. ثانيًا: الاختصار الخلاصي Abstractive Summarization‏ وفيه 
قد تكون جمل الملخص مولدة LET‏ أوناتجة عن إحداث تغييرات وعمليات حذف 
أوإضافة أو تعديل على الجمل القادمة من النص المصدرء وهي أصعب بمراحل 
من التلخيص الاقتطاعي الاقتطاعي LEY‏ تتضمن عملية توليد الجمل» وتحتاج 
إلى توفير سبل ضمان رصانتها وتماسكها وسلامتها النحوية وصحة معانيها وعدم 

تناقضها مع المعلومات الواردة 2 المصدر. 

والتلخيص الآلي -لاسيما التلخيص الاقتطاعي- واحد من الموضوعات التي 
شهدت قدرًا من الاهتمام 2 اللغة Ay pall‏ وجاءت أغلب الأبحاث 2 الموضوع لتطبق 
الطرق المستخدمة 2 اللغات الأخرى مع إضافة بعض عمليات المعالجة التي تخص 
اللغة العربيةء ومن أمثلة الأبحاث التي تناولت التلخيص العربي [vvv]‏ 
تصئيف Text Classification ye gaiti‏ 

تقوم أنظمة تصنيف النصوص بتحليل النص و تصنيفه بحسب موضوعه أو 
محتواه إلى أصناف محددة تختلف من تطبيق لآخرء ومن أمثلة ذلك تصنيف الأخبار 


١ هه‎ 


بحسب موضوعها إلى أخبار aulas‏ أو رياضية. أو علمية؛ إلخ. وتعتمد أغلب هذه 
الأنظمة اليوم على تقنيات تعلم UY‏ الملخصصة لعمليات التصنيف Classifica-‏ 
tion‏ وتستخدم 2 ذلك مجموعة من الخصائص من أشهرها مجموعات الكلمات 
n-grams‏ المفردة والمزدوجة والثلاثية (وغاليًا يتم ذلك بعد تجذيع الكلمات Stem-‏ 
(ming‏ وخصائص أخرى تختلف بحسب التطبيق. 


و تصنيف النصوص العربية هو أيضًا أحد الموضوعات التي لاقت اهتمامًا من 
قبل عدد من الباحثين [voor]‏ 


نحليل المشاعر واستكشاف الآراء Sentiment Analysis‏ 

وهي عملية يتم فيها تحليل المحتوى النصي بهدف الكشف عما يحمله من 
مشاعر سلبية أو إيجابية أو Styles‏ وتستخدم هذه العمليات بشكل كبير 4 تحليل 
المراجعات التي يكتبها الناس على الإنترنت تعليقا على ما يشترونه من منتجات. 
أو تلك التي يعلق بها الناس على ما يشاهدونه من a Wal‏ مصورة أو مقاطع صوتية: 
وكذلك 2 قياس الرأي العام تجاه القضايا العامة والقضايا السياسية؛ وتفيد هذه 
العمليات صناع القرار 2 الشركات أو الدوائر الرسمية لاتخاذ ما يلزم من قرارات 
وسياسات. وقد ازداد الاهتمام بهذا الموضوع بشكل كبير مع انتشار الانترنت, 
ومع ثورة شبكات التواصل الاجتماعي تحديداءً حيث أصبحت هذه الشبكات مليئة 
بالنص محمل بالمشاعر والآراء التي يمكن لصناع القرار الوصول إليها وتحليلها 
والخروج باستنتاجات من خلالها. 

وتعتمد هذه الأنظمة على تحديد الكلمات والتعبيرات السلبية والإيجابية ‏ 
اللفة مشلا كلمة "Jya‏ هي كلمة إيجابية و المقابل كلمة "حزين" هي كلمة 
سلبية. وقد تعتمد قطبية الكلمات على الموضوع فمثلًا عندما يوصف سيناريوفيلم 
ما بأنه "غير متوقع" فهذا قد يكون مؤشر إيجابي يدل على أنه مشوق. ‏ المقابل 
عندما يوصف مقود التحكم 2 السيارة بأن "غير متوقع'" فهذا تعبير سلبي يدل 
على أنه خطير ويصعب التحكم فيه بدقة عند القيادة. 
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وقد ظهر اهتمام كبير مؤخرًا بتطبيقات تحليل المشاعر واستكشاف الآراء .2 
اللغة العربية وظهرت العديد من البحوث التي اقترحت آليات لبناء قوائم بالتعابير 
الإيجابية والسلبية المستخدمة ك اللغة العربية ,]١١7-١١7[‏ وأخرى تناولت تحليل 
نصوص شبكات التواصل الاجتماعي كمنتديات الحوار ومواقع التدوين القصير 
لقياس ul at‏ العام [Dv]‏ 
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خاتمة 


عرفا 2 هذا البحث الاستقصائي بتقنيات معالجة اللغات الطبيعية, 
واستعرضنا أهم الوظائف الأساسية التي يلزم إجراؤها على النصوص 2 أغلب 
تطبيقات معالجة colat!‏ وأوضحنا ما للغة العربية من خصوصيات -2 كل من تلك 
الوظائف مع ترك إشارات مرجعية للبحوث التي تناولت JS‏ وظيفة حتى يعود إليها 
القارئ المهتم بمعرفة التفاصيل. كما أشرنا إلى العديد من الوظائف الأخرى التي 
لم يتطرق إليها البحث 2 اللغة العربية فيما نعلم وتحتاج إلى مبادرة الباحثين 
لطرق بابها. ثم عرضنا نماذج لتطبيقات مهمة لتقنيات معالجة اللغات لاسيما 
تلك التي اهتم بها الباحثون 2 اللغة العربيةء وتركنا كذلك إشارات مرجعية لتلك 
الأبحاث التي يمكن أن يرجع إليها القارئ المهتم بالتفاصيل. 
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اهتماماته الأخرى التعرف الآلي على الكلام والتصحيح الآلي للنصوص. 
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gala 


يعتبر التشكيل الآلي 2 اللغة العربية أحد eal‏ المباحث 2 مجال الحوسبة 
العربية» حيث يُمثل مرتكرًا LOS,‏ لمباحث أخرى 2 نفس المجال كالتعرف الآلي 
عنس ol acil i all O‏ ونه رة e‏ كام Baill‏ المصندر ias il‏ 
الآلية. كما يُمكن الاستفادة منه من قبل دارسي اللغة العربية حيث يُعتبر غموض 
da‏ الكرية غير اة eet oe Gas‏ اة اوه 


ala‏ الباحثون باتباع طرق عديدة 2 التشكيل الآلي أغلبها وأنجحها يعتمد على 
a dd‏ والتعلم الآلي. كما ald‏ بعضهم بمحاولة اتباع الطرق النحوية 
التي تعتمد على قواعد اللغة العربية وإن كان نجاحهم .2 ذلك مقصورًا على الجمل 
القصيرة البسيطة. وربما كان السبب الرئيس 2# ذلك هو الغنى اللغوي الذي تتميز 
به اللغة العربية عن بقية اللغات. 

bara:‏ انكف و dead an read xs deb‏ سياقية وحرفية عن 
طريق استخراجها من مكانز اللغة العربية المشكلة يدويًا. وقد Lied‏ باستخدام تلك 
القواعد -2 مرحلتين: مرحلة التنظيف وهي المرحلة التي يتم فيها استبعاد التشكيل 
حسب درجة تدرته. ومرحلة التطبيق وفيها يتم تطبيق هذه القواعد على الأحرف 
قبن gail 2. AKA‏ 

وتظهر نتائج التجارب التي قمنا بها تحستا كبيرًا 2 نسبة التشكيل تصل إلى 
«la aug 21)‏ وكذلك تحت اة نسية الخطأ الكلمي بمعوسط Aa Bg OIN‏ 
الخطأ yond!‏ .3 بمتوسط ./٠١‏ 
8 يعتمد هذا البحث على رسالة بعنوان "استرجاع التشكيل LOT‏ للنصوص العربية" 


قدمت لجامعة الملك فهد للبترول والمعادن ومنح بموجبها الباحث درجة الماجستير 
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مقدمة 

تعد معالجة اللغة الطبيعية (Natural Language Processing NLP)‏ أحد 
المواضيع المهمة 2 علوم الحاسوب واللسانيات الحاسوبيةء وقد تطورت كثيرا على 
مدار العقود الثلاثة الماضية. وتكمن أهمية معالجة اللغة العربية 2 انتشار الإنترنت 
والأجهزة المحمولة التي تتطلب المزيد من التفاعل الطبيعي مع المستخدمين. فبعض 
تطبيقات معالجة اللغة الطبيعية مخصصة لأهد اف لغوية مستقلة كالمدقق والمصحح 
الإملائي والنحوي وبعضها تستخدم كأدوات مساعدة لتحقيق أغراض أكثر تعقيدًا 
كالتعهرف الآلي على Automatic Speech Recognition ASR) adsl‏ ( حيث 
يستطيع الشخص إطلاق أوامر صوتية أو إملاء نص للحاسوب» وكذلك مثل تحويل 
النص إلى كلام (Text-to-Speech TTS)‏ حيث يقوم الحاسوب بنطق نص ما أو 
إعلام المستخدم بأمر ما. 


التشكيل 2 الكتابة العربية 

تتكون الأبجدية العربية من Yo latas los YA‏ حرف صامت» و" أحرف علة 
(صائتة) (الآلفء والواوء والياء )+ ويمكن للواو والياء أن يكونا ساكنين (شبه 
صائتة) كذلك .]١[‏ 


يمكن لكل حرف صامت أن يشكل بإحدى M‏ طريقة كما يبينها الجدول ١ء‏ 
ويمكن تصنيف هذه الطرق 2 خمس مجموعات: الأولى تمثل الحركات البسيطة 
وهي الفتحة والضمة والكسرة, والثانية تمثل حركتي التقطيع وهما السكون BALI g‏ 
والثالشة تمثل التنوين ( تنوين فتح» تنوين ضم» تنوين كسر), أما المجموعتين 
الرابعة والخامسة فتمثلان الحركات المركبة من الشدة مع حركة من 
الحركات البسيطة. 


NAO 


يمكن أن نقسم عملية تشكيل الكلمة 2 اللغة العربية إلى قسمين: تشكيل 
yuo‏ 2 وتشكيل إعرابي. ونعني بالتشكيل الصرك التشكيل الداخلي للكلمة الذي لا 
يتغير بتغير موقع الكلمة 2 الجملة. أما التشكيل الإعرابي فيكون عادة ‏ الحرف 
الأخير من الكلمة ويمكن أن يتغير بتغير موقع الكلمة 2 الجملة. ويمكن اعتبار 
القتسم الأول العامل الأساس 2 تحديد معنى الكلمة؛ Lol‏ القسم الثاني فهو العامل 
الأساس 2 تحديد معنى الجملة ككل. ويمكن عند التشكيل الآليء استخدام الطرق 
الإحصائية لاستنتاج القسم الأول أما القسم الثاني فلا يمكن استنتاجه إلا 
باستخدام القواعد النحوية. 

جدول ١‏ تقسيم التشكيل العربي 


Ee x T eR perm 
EXENZ NN Ca 
peo ees 

eae eer 
EX m 

aor 

Pe Seis 

2ك نه 


| atin 
c ( الفتحة‎ + 
HE ع‎ 
eae 
Ew (2) + الشدة‎ 
KALE 
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تعريف المسألة 

نهدف 2 هذا البحث إلى تطبيق التشكيل الآلي على النصوص العربيةء وبمعنى 
أدق؛ يمكن وصف مسألة التشكيل الآلي بآنها عملية استرجاع التشكيل الناقص من 
النصوص غير المشكلة ( أو المشكلة (C ja‏ يبين مثالا على نص غير مشكل (Í)‏ 
والتشكيل المفترض بعد تطبيق التشكيل الآلي (ب) . 


23377. 


E TEL . ER $ 5‏ 8 
خير الناس أنفعهم للناس خير الناس gad‏ للناس 


)1( المدخل (ب) المخرج 
رسم توضيحي ١‏ : مثال على مخرجات عملية التشكيل ATI‏ 


التشكيل الآلي هو أحد قضايا معالجة اللغة الطبيعية التي يمكن اعتبارها 
مستقلة لها تطبيقاتها الخاصةء كما يمكن اعتبارها أداة مساعدة لتطبيقات أكثر 
تعقيدًا. وتظهر هذه المسألة 2 اللفات السامية بشكل خاص كالعربية والعبرية, 
وكذلك 2 بعض اللغات الأخرى مثل اليونانية والكورية Ly]‏ وباعتبار اللغة العربية 
يُحذف التشكيل عادة تاركا مهمة تحديد معنى الجملة لفطنة القارئ» وهذه ليست 
مشكلة للقارئ الخبير الذي يستطيع بخبرته تحديد المعنى المقصود بناء على 
السياقء ولكن تبرز مشكلة تقدير التشكيل للقارئ المبتدئ — وكذلك للحاسوب — 
حيث لا يمكن تحديد معنى الجملة بسهولة. ومن هذا المنطلق تظهر الحاجة إلى 
التشكيل الآلي. 


تطبيقات التشكيل الآلي 

يمكن استخدام التشكيل الآلي بصورة مستقلة أو بصورة مساعدة لمسائل 
أخرىء فعند تطبيقه يمكن أن يقلل من غموض النص ويساعد # تحديد المعنى 
المقصودء وهذا مفيد بحد ذاته. كذلك فإن تشكيل النص هو أمر أساس 2 مسألتي 
التعرف الآلي على الكلام وتحويل النص إلى كلام والترجمة الآلية. إذ تستخدم 


NAV 


الطرق الإحصائية 2 التعرف على الكلام على الأغلب والتي تعتمد على وجود مكنز 
كفك لاسن عدون عت هذا ails E Tu pata Li seg GLb SIS‏ 
بصورة يدوية؛ وهذا أمر شاق للغاية. Lol‏ عند تحويل النص إلى كلام فيتطلب أن 
يكون النص المراد نطقه مشكلا تشكيلا كاملا. ولذاء فإن بناء نظام للتشكيل الآلي 
إضافة ضرورية لتطبيقات وبحوث الصوتيات العربية. 


أساليب التشكيل الآلي 

لقد ازدادت الأبحاث المنشورة المتعلقة بالتشكيل الآليء سواء للعربية أو 
غيرهاء 4 العقد الأخيرء و4 هذا الفصل نعرض آخر الأبحاث 2 هذا الموضوع. S‏ 
نعرض الأبحاث المتعلقة باللغة العربية 2 القسم LY Y‏ بينما نعرض بعض الأبحاث 
المتعلقة باللغات الأخرى 2 القسم ؟, LY‏ أما القسم Y LY‏ فيعرض مقارنة بين الطرق 
المستخدمة # الأبحاث التي اطلعنا عليها. 


التشكيل الآلي 2 اللغة العربية 
الوضعين sone ga ph!‏ حيث يقوم الوضع الأول بالبحث 2 قاموس يحتوي على كلمات 
كاملة ومشكلة؛ باستخدام البحث الشعري XA‏ وتقدير الاحتمال التسلسلي طويل 
المدى لأجل الحصول على أقرب تشكيل ممكن. و4 حال لم تكن الكلمة gl)‏ سلسلة 
الكلمات) موجودة 2 القاموس ) t (Out-Of- Vocabulary OOV‏ يقوم الوضع 
الثاني بتحليل كل كلمة إلى جميع احتمالاتها الصرفية ثم يعيد البحث 4 القاموس 
لكل احتمال. يقول المؤلفون ob‏ النظام حقق نسبة خطأ Y‏ , ۲ على مستوى الكلمات: 


AVY 509‏ على مستوى الأحرف. 


واتبع الزيتوني وساريكايا [v]‏ طريقة الإنتروبيا القصوى Maximum En-)‏ 
(tropy‏ لاستنتاج التشكيل. و4 هذه الطريقة يمكن استخدام معلومات متعددة 
بصورة تكاملية كالخصائص الكلمية؛ والقطعية؛ ووسوم أجزاء الكلام. وعلى هذا؛ 
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قام المؤلفان بتعريف مسألة التشكيل الآلي على أنها مسألة تصنيف» واستخدما 
,MaxEnt cà La‏ كما استخدما 2 تجاريبهما المكنز «LDC Arabic Treebank‏ 
وبناء عليه تم التوصل إلى درجة las‏ كالتالي: £١١ SY‏ على مستوى الكلمة باعتبار 
التشكيل الإعرابي AV, Yg‏ بتجاهلهء درجة ١ Lad‏ , ۵ على مستوى الأحرف باعتبار 
التشكيل الإعرابي Y Yg‏ بتجاهله. 


واستخدم الشافعي وآخرون ] ؛ ] نماذج ماركوف المخفية Hidden Markov)‏ 
(Models HMM‏ لحل مسألة التشكيل الآلي. تطلب هذا الأسلوب مكنزًا كبيرًا 
من النصوص المشكلة لأجل استخراج الخصائص التي ستستخدم 2 النمذجة: 
وقد قام بعض المؤلفين باستخدام نصوص القرآن الكريم للنمذجة والاختبار. كما 
استعمل المؤلفون سلسلة الكلمات غير المشكلة كخصيصة:؛ واعتبروا أن الحالة 
اف هى aud]‏ واي ach‏ وا ie‏ ولاك Tubes‏ مه Js lies‏ 
انخفضت بعد ذلك إلى 0, AY‏ باستخدام مرحلة ما قبل المعالجة وسلاسل ثلاثية 
مختارة. 


وقد وصف عطي [o]‏ نظام ArabDiac‏ وهو ia‏ كل تجاري يُستخدم 3 
النسخ النطقي للكلام» وقد استعمل أسلويًا يدمج بين القواعد والإحصاءات لأجل 
استخراج التشكيل الأقرب لنص Le‏ ويعمل هذا النظام ‏ أربع مراحل: تماد 
الكلمات المختصرة والأرقام 2 المرحلة الأولى إلى ألفاظها.ء و2 المرحلة الثانية 
يقوم المحلل المفرداتي بتحديد التشكيل الأنسب للكلمة وكذلك الأجزاء الصرفية 
لها أوتحديد ما إذا كانت الكلمة معرّبة al‏ لا. و2 المرحلة الثالثة يقوم الواسم 
بتحديد وسوم أجزاء الكلام لكل كلمة غير معرّبة ومن ثم يقوم المحلل الإعرابي 
بتحديد التشكيل الإعرابي» Ll‏ 2 حالة كون الكلمة معرّبة فتستخدم الإحصاءات 
وا ف Can al e‏ لها T‏ تحزن التصيوسن ARI‏ إلى 
النسخ النطقي 2 المرحلة الرابعة باستخدام قواعد خاصة آخذة 2 الاعتبار تأثير 
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نطق الكلمة على الكلمة التالية لها. حصل المؤلف على دقة ZAY‏ ( لو تضع هنا نسبة 
الخطأ أيضا لتسهل المقارنة) دون اعتبار أواخر الكلماتء Mg‏ (لو تضع هنا نسبة 
الخطأ أيضا لتسهل المقارنة) باعتبارها. 


التشكيل الآلي 2 اللغات الأخرى 

بالرغم من أن أكثر الأبحاث المتعلقة بالتشكيل الآلي خاصة باللغة العربية؛ إلا 
إن عددًا من الباحثين قد درسوا هذه المسألة على لغات أخرى كالسندية والأردية, 
والتي تشبه ay yall‏ ب4 الكتابةء مما يجعلها مرتبطة بموضوع البحث بشكل كبير. 

فقد قام جافيد وآخرون DV]‏ بدراسة مسألة التشكيل الآلي للغة السندية 
وهي لغة يتحدث بها 2 باكستان وأجزاء من الهند فقاموا ببناء نظام يستخدم 
WordNet |‏ والتي تخزن العلاقات الدلالية بين الكلمات» واستخدموا فيه ثلاثة 
مكانز: الأول CRITICAL esas‏ ويستخدم للكلمات الغامضة والهامةء والثاني وقد 
HOMONYMY o) AL‏ يتستخدم للكلمات الهامة المتشابهة 2 الكتابة المختلفة 2 
المعنىء أما الثالث WNL‏ فيستخدم للكلمات القياسية. وبحسب تجاربهم؛ حصل 
المؤلفون على نسبة خطأ١, c‏ على مستوى الکلمات» S YA g‏ على مستوى 
الأحرف. 

وزكر ola‏ وآخرون [v]‏ على اللقات السامية ويشكل خاض اللغةالسيريافة: 
إذ استخدموا طريقة نماذج ماركوف المشروطة Conditional Markov Mod-)‏ 
(els CMM‏ 2 التشكيل الآلي والتي تتطلب مكنرًا مشكلاء واعتمدت الكلمات gh)‏ 
الأجزاء) المشكلة السابقة على الكلمة 2 بناء تلك النماذج. وقد حقق المؤلفون نسبة 
خطأ ١١‏ على مستوى الكلمة للعربية؛ وه, ٠١‏ للسيريانية. 

كما als‏ علي [A]‏ بدارسة المسألة للفة الأردية؛ فبين كيف قام clin‏ نظام 
للتشكيل الآلي قد اعتمد على مُعجم ومكنز مشكل وموسوم يدويًا. ويمكن تلخيص 
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طريقة عمله كما يلي: أولا؛ تزال علامات التشكيل من النص قبل معالجته» ومن ثم 
يقوم الواسم المعتمد على HMM‏ بوسم الكلمات» ثم يتم البحث عن الكلمة ووسمها 
بك المعجم لكي يتم الحصول على الكلمة AUS Be‏ وإذا لم يُعثر على الكلمة يتم تحليل 
الكلمة باستخدام القواعد وإلا فتستخدم الإحصاءات لتشكيلها. وقد وصلت دقة 
هذا النظام إلى 54 (لوتضع هنا نسبة الخطأ أيضا لتسهل المقارنة) بحسب ما 


ذكر المؤلف. 
قواعد التشكيل الاستنباطية 


يتميز التشكيل 4 اللغة العربية بدرجة كبيرة من التعقيد إلا إن المتأمل يمكنه 
أن SL‏ حط الكتير من القواعد والأنماط المتكررة التى e‏ التشكيل إلى as‏ كير 
ومن ذلك - على سبيل المثال - أن حرف التاء المربوطة »الذي يكون Leiba‏ 2 نهاية 
الكلمة؛ لا ao‏ أن تسبقه حركة الفتح كما 2 BAAS"‏ و CAE)‏ وقس على هذا كثير 
من القواعد التي يمكن استنباطها عن طريق الاستقراء. 

الخصائص 

للتعرف على قواعد التشكيل الاستنباطية لا بد من تحديد الخصائص التي 
تتكون منها هذه القواعد» فقاعدة التاء المربوطة السابقة لا تتطلب سوى معرفة أن 
الحرف التالي هو تاء مربوطة. ولكن يمكن للقاعدة أن تحتوي على خصائص أكثر 
من ذلك بكثير. لهذا قمنا بتحديد ١7‏ خاصية متعلقة بالحرف الحالي وما قبله وما 
بعده» والكلمة الحالية وما قبلها وما بعدهاء وخصائص أخرى كطول الكلمة وهي 
كالتالى: 


.١‏ الحرف الحالي: ويمكن أن يحتوي كل الأحرف العربية بجميع أشكالها 
وهي Y‏ شكلاء وهي الأحرف الثمان والعشرون مضامًا إليها الهمزات 
بأشكالها الست» والألف المقصورة. والتاء المربوطة. 


\4\ 


موقع الحرف الحالي: ويحسب الموقع من بداية الكلمة ويأخذ Laud‏ من ١‏ 
إلى طول الكلمةء دون أخن حركات التشكيل والكشيدة (حرف التطويل) 


الحرقان السابقان للحرف الحاليء والحرفان التاليان له: حيث يمكنهم 
-جميعا- أن يكون asd‏ الأشكال المذكورة 2 النقطة ١ء‏ بالإضافة إلى 
القيمة الفارغة N‏ إذا كان الحرف غير متوفر. 

حركات التشكيل للحرفين السابقين والتاليين (إن توفرت) : وتأخذ أحد 
VE‏ قيمة ممكنة أو القيمة الفارغة N‏ إن لم تتوفر. 

الكلمة الحالية: ويمكن أن تأخذ أحد ٠٠٠١‏ قيمة هي الكلمات الأكثر 
استخدامّاء وإن لم تكن ضمن تلك الكلمات فتأخذ القيمة الفارغة JN‏ 
الكلمتان السابقتان والكلمتان التاليتان: وهي كالكلمة الحالية 4 عدد 
القيم الممكنة. 


طول الكلمة الحالية (دون أخذ الحركات ولا الكشائد 2 الاعتيار) . 


استخراج القواعد 

بعد تحديد الخصائص التي ستؤخذ 2# الاعتبار عند استقراء القواعد آليًا 
ag as‏ باستخراجها عن طريق برنامج ous veld‏ لقراءة نصوص المكنز المشكل 
سابقًا وتسجيل القواعد الممكنة دون استبعاد أي منهاء ثم تخزينها 2 ملفات نصية 
تحتوي تلك القواعد وعدد مرات تكرارهاء ونسبة نجاحها. يوضح جدول Linas Y‏ 


من هذه القواعد. 


التطبيق 
قمنا باستخدام هذه القواعد الاستنباطية لأجل تحسين نتائج التشكيل الآلي 
وذلك بتطبيقها على مرحلتين: 
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.١‏ مرحلة التنظيف: وهي مرحلة استبعاد الحركات التي يستحيل أو يندر 
حصولها. ويمكن تحديد القيمة الآدنى التي يمكن عن طريقها اعتبار 
الحركة نادرة أم من نسبة النجاح أومن عدد مرات التكرار. وتكمن 
أهمية هذه المرحلة 2 أن كثيرًا من أدوات التشكيل الآلي تقوم بالتشكيل 
بطريقة إحصائية لا تراعي احتمالية وجود حركة ما على حرف ما. وقد 
لوحظ وجود الكثير من الحالات التي لا يمكن حصولها. 


Y‏ مرحلة التشكيل: وهي مرحلة تطبيق القواعد على الأحرف التي ليس 
لها تشكيل. سواء كان ذلك بسبب استبعادها # المرحلة الأولى أو بسبب 
نقص نسبة التشكيل 2 النص. ويمكن أيضًا تحديد القيمة الأدنى لنسبة 
التشكيل وعدد مرات التكرار التي يجب توافرها قبل تطبيق قاعدة ما. 

جدول Y‏ أمثلة على قواعد التشكيل الاستنباطية باعتبار ؛ خصائص هي الحرف 
الحالي وموقعه؛ والحرفان السابق واللاحق (مُرتبة بنسبة النجاح e‏ 


dmn e MEE Em 
السابق | التالي | الحالي | النجاح | التكرار‎ a الحالي‎ 
E n 
Pe as EE 
EAT KS 

[um [ewm] = Ts 

Pee ma SES o 
Deere T 
[mm [| 2 T3 
[mw SES ES 


Y 


14۳ 


الحالي | الحالي | السابق | التالي | الحالي | النجاح | التكرار 
S ee quer]‏ اك للق 
ene Lie See sip ge meet die]‏ 


EXERCISE TUE ae see 


ويجدر ملاحظة أننا 4 مرحلة التنظيف قد استبعدنا الخصائص المتعلقة 
بحركات التشكيل» وذلك بسب أن النص المراد تنظيفه قد لا يكون مُشكلا ÉK‏ 
( على ase‏ مكنز الذي تم استخراج القواعد (dia‏ مما قد يؤدي إلى استبعاد 
الكثير من الحركات الممكنة بطريقة خاطئة. 
طريقة التقييم 

لتقييم أداء البرنامج Lin’‏ ببناء نص اختباري تم تشكيله يدويّاء ثم استخدمنا 
n‏ أدوات للتشكيل الآلي لتشكيل النص غير المشكل آليّاء وهذه الأدوات الست هي 
كالتالى: 


http://www.arabinIp.com عربي‎ ١ 
http://harakat.ae als > .Y 


https://flintbox.com/public/project/8348 cis .¥ 


Yat 
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http://tahadz.com/mishkal مشكال‎ .¢ 
http://www.rdi-eg.com/technologies/diac.aspx RDI .4 


http://arabdiac.sakhr.com.eg صخر‎ .1 


ونظرًا لمحدودية توافر بعض هذه الأدوات فقد قمنا بالتواصل مع أصحابهاء 
الذين وافقوا مشكورين على تشكيل النص الاختباري باستخدام «eil ool‏ وإرسال 
d‏ ار . ويوضح الشكل التالي أداء كل أداة على النص الاختباري. 
وک تلاحيظة أن مشكل eal eu atia iia E ae uaa‏ 
نسبة التشكيل فيه ZAT‏ ونسبة الخطأ الكلمي /١١‏ ونسبة الخطأ الحرب AY‏ 


النتائج المبدئية 
ين 
a.‏ 
Ae‏ 
ve‏ 
si‏ 
Hm‏ 
yo‏ 
Ye‏ 
hag‏ 
عربي حركات مدى مشكال RDI‏ صخر 
٠٥ ۷.01 A\.Ato YY.£3A AA. YoY YY.£oo‏ إنسبة التشكيل | 
YLEN 9.1۸‏ كلك | Boer 41 YO VA | aaao‏ 
mou 1.1.0 0.۸ yoy mU o.04 1.00۷‏ 


رسم توضيحي Y‏ : نتائج تشكيل النص الاختباري باستخدام الأدوات الست 


\4o 


النص الاختباري 

يتكون النص الاختباري من حوالي ٠٠١‏ جملة (أومقطع). تم اختيارها 
عشوائيًا من c ST‏ والذي روعي فيه التنوع ليشمل نصوصًا إخبارية ودينية وثقافية 
واقتصادية ورياضية. وقد تم استبعاد هذا النص من المكنز عند استخراج القواعد 
الاستنباطية. ويوضح الجدول التالي بعض الإحصائيات عن هذا النص. 


جدول ۳ إحصائيات عن النص الاختباري 


SESE 
EVER 
عد الكلمات الفريدة امرية‎ 


ome oe S 
ا مفقاييس المستخدمه‎ 


درج الباحثون 2 مجال التشكيل الآلي على استخدام مقياسين رئيسين 
لتحديد دقة التشكيل وهما نسبة الخطأ الكلمي (Word Error Rate "WER")‏ 


ونسبة الخطأ , -2 (Character Error Rate / Diacritic Error Rate)‏ ويتم 
قياسهما عن طريق المعادتين التاليتين: 
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ويوضح المثال 2 الجدول التالي كيفية حساب المقياسين 4# سياق التشكيل 
الآلي: 
جدول ٤‏ مثال لتوضيح طريقة حساب نسبة الخطأ الكلمي ونسبة الخطأ الحر2 
uat‏ المشكل آنا تھں د 


نسبة الخطأ الحر2 12 /2= 0.17 = 17% 


نسبة الخطأ الكلمي 2/3 = 0.667 = 66.7% 


ورغم أن هذين المقياسين هما الأشهر والآكثر استخدامًا إلا إنهما لا يكفيان 
لمعرفة درجة أداء البرنامج الذي يقوم بالتشكيل؛ فمن الممكن مثلا أن يقوم البرنامج 
بتشكيل نص بنسبة * 40 دون أن تزيد نسبة الخطأ 2 التشكيل عن 41 لذا رأينا أنه 
من الضروري استخدام مقياس جديد ( بالتكامل مع المقياسين السابقين) هو نسبة 
التشكيل ily. ) ( Diacritization Level (DL)‏ يمكن حسابها بالمعادلة التالية: 


حيث يد خل 2 المشكلة الأحرف الأحرف التي لا تشكل عادة إما بسبب وضوحها 
LIEB E axis‏ اولس ل نطوو catis latas‏ و چا E‏ ویر اا2 
DOR‏ 

وتجدر الإشارة إلى أن هذا المقياس aca‏ حسابه GT‏ بدقةء حيث إن الأحرف 
المشكلّة ضمنيًا لا يمكن التعرف عليها بسهولةء لذلك فقد قمنا باستخدام قواعد 
مَبسطة لتحديد تلك الأحرف» وقد حققت نتائج مقبولة إلى حد كبير. 


1۹۷ 


النتائج والتحليل 

لاختبار أثر القواعد الاستنباطية 4 تحسين نتائج التشكيل الآلي باستخدام 
" 6.5 22 
الأدوات الست سابقة الذكر؛ قمنا بإجراء تجربتين على النصوص المشكلة آليا: 
الأولى باستخدام حد أدنى للندرة ١‏ والثانية باستخدام حد أدنى A‏ ويمثل هذا 
الحد الأدنى الدرجة التي يتم عندها تحديد ما إذا كان تشكيل حرف معين نادرًا el‏ 
لا؛ حيث إنه كان نادرًا فإنه يتم استبعاده. ويُظهر الرسمان التوضيحيان Y‏ و٤‏ نتائج 
كلتا التجربتين باستخدام المقاييس الثلاثة: درجة التشكيل؛ ونسبة الخطأ الكلميء 
ونسبة الخطأ الحرق. 


ويمكننا أن تلاحظ أن نسبة التشكيل تتحسن بشكل كبير ).2 التجربتين) على 
أغلب الحالات خاصة أن أكثر هذه الأدوات لم تقم بتشكيل النص بشكل كامل؛ 
وذلك ol Baal,‏ 28:24 سكو ننه الآليين اللذين انخفضت فيهما نسبة التشكيل 

Lal‏ بالنسبة لنسبة الخطأ الكلمي فنرى انخفاضًا يتراوح بين ۲-١‏ لأغلب 
Lol‏ وقد يصل إلى 76“ 2 حالة أداة JE a‏ وزيادة ١‏ تقرييًا 2 حالة أداة 
صخر. أما ‏ التجربة الثانية؛ حيث قمنا بخفض الحد الأدنى للندرة» فثلا حظ 
انخفاضًا 2 حدود 2١‏ لجميع الأدوات الست. 


وأخيرًا:نترى نسبة LT SE‏ الحريق تتحفكن Lass‏ بحواك هر < ف كلتا 

4 s 
ويلاحظ من هذه النتائج أن انخفاض نسبة الندرة يزيد من نسبة التشكيل‎ 
بشكل كبيرء حيث وصلت إلى حوالي 2.7/0 جميع الأدوات الست» وهذا يُمثل تغيرًا‎ 
لجميع الأدوات باستثناء صخر و21 ۸. ويعود ذلك‎ 2٠١ كبيرا يصل إلى أكثر من‎ 


1۹۸ 
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لكون خفض نسبة الندرة يُبقي على درجة أكبر من التشكيل الأصلي» وذلك قبل أن 
يتم تطبيق القواعد الاستنباطية على النص. 
s 2 4 P‏ 
ويلاحظ كذلك أن انخفاض نسبة الندرة يُقلل من التحسن d‏ الخطأً. 
سواء الكلمى أو الحريك حيث يؤدي ذلك إلى الإبقاء ele‏ أخطاء التشكيل الموجودة 
مُسبقًا دون إزالتها. 
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تجربة أ: نسبة التشكيل 


8 الأصل‎ moa 


تجربة أ: نسبة الخطأ في الكلمات 


mos‏ الأصل سط 


تجربة أ: نسبة الخطأ في الأحرف 


mos!‏ الأصل س 


RDI QU 


رسم توضيحي ": نتائج استخدام القواعد الاستنباطية 4 التجربة أ ( حيث تم 
استخدام Y‏ كحد أدنى 2 مرحلة التنظيف) 


Yur 


الحرفالعربي 9 power‏ 
أبحاث في حوسبة العربية 


تجربة ب: نسبة التشكيل 


المُحسن س الأصل 8 


o 


o 1 


M Lei o 
T o = o 
| | | | | | | 


عربي حركات 


تجربة ب: نسبة الخطأ في الأحرف 


«© الأصل‎ moa 


مدى مشكال 


رسم توضيحي ٤‏ : نتائج استخدام القواعد الاستنباطية 4 التجربة ب Com)‏ 
تم استخدام ٠٠١‏ كحد أدنى 2 مرحلة التنظيف) 


Yei 


ويُمكننا أن نقارن درجة التحسن لكل مقياس من جدول ۵ وجدول١.‏ حيث 
فمنا 2 حالة المقياس الأول (نسبة التشكيل)؛ بحساب درجة التحسن بطرح الفرق 
بين القيمتين ثم قسمته على القيمة الأصلية. أما 4 حالة نسبة الخطأ (سواء كانت 
4 الكلمات أو الأحرف) فقد قمنا بضرب الناتج بإشارة سالبة؛ لأن التحسن هنا 
هودرجة النقص وليس درجة الزيادة. 


جدول ه درجة التحسن .2 التجربة أ 


ias aud 9‏ ئنسة الخطاً 
اسم الاداة نسبة التشكيل i‏ 7 : 
WV, 4^, INV, E"‏ 
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الخلاصة 


2 هذا العمل البحثي قمنا بتقديم طريقة القواعد الاستنباطيةء وهي قواعد 
تشكيلية تم استخراجها من أحد SIS‏ وتحدد مدى تأثير عدد من الخصائص 
(كنوع الحرف وموقعه 2 الكلمة) على التشكيل. قمنا باستخدام تلك القواعد .2 
مرحلتين: مرحلة التنظيف وهي المرحلة التي يتم فيها استبعاد التشكيل حسب 
abn 545: 15404233‏ التطبيق وفيها يتم تطبيق هذه القواعد على الأحرف غير 
المشكّلة 2 النص. 

وتظهر نتائج التجارب التي قمنا بها تحستا كبيرًا ‏ نسبة التشكيل تصل إلى 
TY‏ 2 الوط و كلك EE uud 2. Las‏ الكلمي متو Bg OIN‏ نسبة 
الخطأ الحرك بمتوسط ./٠١‏ 
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الجامعة الأردنية 

حصل على البكلوريوس B‏ الهندسة من جامعة بغداد عام 1155 وعلى الدكتوراه من بريطانيا 
عام ۱۹۷١‏ وعمل 2 جامعة الموصل بالعراق وحصل على مرتبة الأستاذية عام 219/١‏ وهو يعمل 2 
الجامعة الأردنية منن عام .۱۹۹١‏ نشر أكثر من ٠٠١‏ بحث LES Y: callo‏ عمل -2 مجال المعالجة 
الآلية للغة العربية ونال جوائز عالمية وهو عضو 2 جمعيات علمية عالمية ويرأس تحرير المجلتين 
الدوليتين للتطبيقات الإسلامية 2 علم الحاسوب وتقنياته باللغتين العربية والإنجليزية. 


Yev 


(3 


a 
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ملخص 


حصل تقدم هائل للترجمة الآلية خلال السنوات الماضية خاصة بين اللغات 
الأوربية. وي الوقت نفسه حصل تقدم كبيرخ الترجمة الآلية للفات الشرقية 
كالصينية واليابانية والكورية. كما توفرت أنظمة متعددة مساعدة لأعمال 
المترجمين المختصين وأنظمة التصحيح اللفوي وغيرهاء مما يساعد 2 عملية 
الترجمة اليدوية. أما الترجمة من اللغة العربية وإليها فهناك محاولات للترجمة 
الآلية. لكن معظم هذه الأنظمة تنتج لغة ASS)‏ وغير دقيقة. 

تعتمد أنظمة الترجمة الآلية على أسس aliia‏ فبعضها يستند إلى المعاجم 
مع مساعدة نحوية لتحليل الجملة ثم إعادة تركيب ترجمتها وبعضها يعتمد الترجمة 
بالاستناد إلى الذخيرة اللغوية المحتوية على نصوص ترجمت من قبل مترجمين 
من البشر باستعمال عمليات إحصائية وغير ذلك من الوسائل حيث تمثل المعاجم 
ركيزة رئيسية 2 الترجمةء إضافة إلى البرمجيات اللغوية المتخصصة. 

هذا البحث هو استكمال لبحث سابق )١(‏ ويهدف إلى تقديم فكرة عن تأريخ 
الترجمة الآلية بين اللغات العالمية وتطورها وما وصل إليه التقدم 2 هذا المجال كما 
يناقش الوضع بالنسبة للترجمة الآلية من اللغة العربية وإليها والمشاكل التي تعاني 
منها ومن ثم يبين الخطوات التي ينبغي اتباعها للتقدم ك هذا المجالء ثم يعرج إلى 
مؤشرات عن مستقبل الترجمة الآلية من اللفة العربية وإليها وما يحتاج ذلك من 


جهود. 


۰۹ 
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مقدمة 

قال تعالى: من ابات Got ai Ge‏ البقم gs‏ إن a‏ 
"Gl oY aus‏ (الروم/۲۲)ء ولذلك احتاج الناس الترجمة منذ الزمن الغابر 
cece alos adi eda ceca o‏ بن cab‏ 
قال: قال زيد بن ثابت: " أمرني رسول الله -صلى alil‏ عليه وسلم- فتعلمت له كتاب 
ase:‏ وقال: إني alil s‏ ما آمن يهود على كتابي» فتعلمته؛ فلم يمر بي M‏ نصف شهر 

LI 4 LI LI e 

—agla gil ola اليه‎ cs Vat له‎ Lal, «as 13 Lad أكتب‎ ouem canes uus 


الترجمة هي نقل معاني نص من لفة إلى لفة أخرى مع مراعاة للدقة 
والأسلوب. ويحتاج ذلك فهم النص الأصلي والتعبير عن المحتوى والأسلوب بلغة 
أخرى. فالمترجم يجب أن يتقن اللغتين المترجم منها والمترجم إليها وهو يتبع إحدى 
طريقتين: إما الترجمة الحرفية والالتزام بمعاني مفردات النص الأصلي ونقلها 
إلى اللغة الثانية أو فهم المعنى العام ثم التعبير عنه باللغة الثانية بأسلوب المترجم 


Oak 


يتعرف المترجم على الرموز المكتوبة ب4 الترجمة الكتابية والأصوات المنطوقة 
2 الترجمة الشفوية:؛ لكن اللغة العربية المكتوبة بحروف غير مشكولة تستو 
معرفة من القارئ لكي يفهم المقصود بدون تشكيل. وهو بذلك يستعمل خبرات 
ذاتية من قواعد اللغة لكي يستعملها بشكل ذاتي وسريع. أما المترجم للكلام المنطوق 
فهويستطيع تمييز الجملة التي يترجمها إن كانت استفهامية آم خبرية al‏ تعجبية 
دون وجود علامات استفهام أو تعجب (Y)‏ 


بعد ذلك يرجع المترجم ذهنيًا أو واقعيًا إلى الوحدات المعجمية وهي الكلمات 


YN 


قاكليدة الوا 3 قن فين Laid 3 428 lat‏ المنياق cll‏ كرد فيه Wa‏ عو 
قد تعني عين الإنسان أو الحيوان وقد تعني عين الماء وقد تعني 2 الصرف عين 
الفعل (Y)‏ وهذه الترادفات تمثل مشكلة كبيرة بالنسبة للترجمة dele‏ والترجمة 
الآلية خاصة. 


ولحل هذه المشكلة يقوم المترجم بتحليل المفهوم للوصول إلى كنهه وما يتفرع 
die‏ من ظلال # المعنىء وخاصة المجازية منها . وذلك حتى تتحدد العلاقة بين هذا 
المفهوم الأساس وما يتفرع منه وبين المفاهيم التي يمكن أن تتصل به بشكل أو بآخر. 


فالمفهوم الذي يرتبط بجسم واحد dines‏ أو يدل idale‏ هو مفهوم إفرادي» مثل 
عطارد". Lal‏ إذا ارتبط المفهوم بعدة أجسام بينها نوع من التجانس الذي يضعها 
2 مجموعة Broly‏ فإن المفهوم يكون le‏ (بمعناها الضيق (Lis‏ مثل '"كوكب . 
فهذا المفهوم يدل على عدد من الأجسام التي تدور حول الشمس. ولتحديد المقصود 
يمكن أن يكون التعريف مركرًا أوموسمًا. وعلى ذلك فإن دقة التعريف تحدد 
المفهوم. والتعريف قد يكون شاملا 2 بعض الأحيان: By‏ غالب الأحيان لا يخلو 
من النقص أو أن يكون تعريةا بالضد أوما يعرف بالتعريف السلبي أو أن يكون 
فضفاضًا أو Lane‏ أو يأخذ بمبدأ الإحلال والتعويض إلى غير ذلك من الصفات 
التي يتصف بها التعريف. وهذا التعريف قد يكون واضحًا 2 ذهن المترجم وقد 
يكون مشوشا فيتصرف 2 ترجمته لهذا المفهوم وقد يعبر dic‏ بمفهوم يفهمه هو 
ويكون قريبًا أو بعيدًا من المفهوم الأصلي. 


ولقد سبق الإمام أبوحامد الغزالي اللسانيين المحدثين 4 تحديد العلاقة بين 
ag gail‏ واللفظ حيث يقول: ' الشيء له 2 الوجود أربع مراتب: الأولى حقيقته 2 
نفسه والثانية ثبوت مثال حقيقته 2# الذهن وهو الذي يعبر عنه بالعلم والثالثة 
تأليف صوت بحروف تدل عليه وهو العبارة الدالة على المثال الذي 2 النفس» 


YAY 
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والرابعة تأليف رقوم تدرك بحاسة البصر دالة على اللفظ وهو الكتابةء فالكتابة 
تبع للفظ إذ تدل عليه؛ واللفظ تبع للعلم إذ يدل عليهء والعلم تبع للمعلوم إذ يطابقه 
ويوافقه. وهذه الأربعة متطابقة متوازية. إلا أن للأولين وجودان حقيقيان لا يختلفان 
بالأعصار والأمم» والآخرين وهما اللفظ والكتابة يختلفان بالأعصار والأمم لأنهما 
موضوعان بالاختيار" أ.ه (Y)‏ 


كان للتطور 2 تمثيل اللغويات الذي قاده aged‏ شومسكي تأثيرًا على نظريات 
اللسانيات الحديثة. فقد أعاد شومسكي تعريف الأهداف من النظريات اللسانية 
لكي تأخذ بعين الاعتبار خلفية المتكلمين بالنسبة للغتهم بدل البحث 2 المكانز 
اللغوية للوصول إلى المطابقة المطلوبة. فالفرد قد يسمع جملة بلغته الذاتية فيفهم 
معناها بسهولة رغم أنه لم يسمعها من قبل (VE)‏ 


إن قواعد أية لغة محدودة لكن الجمل التي يمكن أن تركب باستخدام تلك 
القواعد لا نهاية لها. Lol‏ المتكلمون باللغة فيتعلمون بالاستنتاج» فمثلا يمكن للمتكلم 
LU s‏ 
ان يشعر بالفرق بين معنيين مختلفين 2 جملة غامضة fie‏ حضر ابن عمي 

s s s s LU 

الصغير فيمكن ان يقصد ان الذي حضر هو الابن الصغير للعم اوهوابن اصغر 
الأعمام. إن القواعد اللغوية يجب أن تحاكي قابلية المتكلم بلغته الأم بحيث تستطيع 
أن تميز الغموض 2 مثل هذه الجملة وأن تعطي نموذ جين للتركيبتين المحتملتين. 

وقد أجبرت الحواسيب اللسانيين أن يكونوا أكثر دقة 2 وصفهم لقواعد اللغة 
التي سبق وأن تصوروا أنهم يعرفونها عن اللغة. ولكن لا يزال الشوط بعيدًا .3352 
القواعد التى وصلوا إليها لتمثيل اللغة بشكل صادق. 

إن التقدم 2 الوصف الدقيق والمعمق للغات الطبيعية وتوفر التقنية الحاسوبية 
لمعالجة اللغات الطبيعية اجتمعا 2 تكوين بيئّة مكنت من الوصف المعمق للغات مع 
أسس قواعدية لتلك اللغات. 


YY 


تساعد بعض العمليات 2 التعرف على المفهوم مثل التعرف على الوحدات 
النحوية وعلى وظائفها مثل المسند والمسند إليه والتكملة والمضاف والمضاف إليهء 
والجار والمجرور والصفة والموصوف وغير ذلك. وعلى المترجم أن يفهم معنى كل 
واحد من هذه العناصر ووظيفته اللغوية والنحوية 2 النص. فالصيغة الخبرية 
مثلا قد تأتي للإخبار كما تستعمل للطلب غير المباشر كما .2 عبارة: ' أرى أن لديك 
Li‏ زائدًا"؛ بل وللدعاء كذلك مثل: "رحم الله “Lda‏ )£( ومن الأمور المهمة 3 
Rn EN‏ فة فل PE eno ai‏ إذا كان النص # ale‏ الأحياء 
فإنك تجد أن بعضن الكلمات تختلف معانيها 2 هذا النص عن حقل تجارة المواد 


الغذائية آو 4 حقل من حقول العلوم الزراعية. وهكذا. 


المحور الثاني 2 الترجمة هو التعبير عن محتوى النص باللغة الهدف أي اللغة 
المترجم إليها. ويحتاج هذا معرفة بإنتاج المقابلات الصوتية أو الكتابية والنحوية 
والمعجمية والبلاغية. وعلى المترجم أن يقوم باختيار العبارات المناسبة 2 اللغة التي 
يترجم إليها التي توافق المفهوم الذي توصل إليه 2 الخطوات السابقة. ales‏ ذلك 
تبرز براعة المترجم 2 اللغتين حيث يجب أن يتقن ما يسمى بالتقابل المعجمي أو 
الاصطلاحيء فالتعبير العربي (رجع بخفي حنين) ليس له مقابل حر بأية لغةء 
ولوترجم ترجمة حرفية لأصبحت الترجمة مضحكة. فهو يجب أن يفهم مثل هذه 
العبارات ويجب أن يعرف العبارات الدارجة التي تقابلها 2 اللغة الثانية أو على 
الأقل يكوّن هو تعبيرًا من كلمات تلك اللغة بما يعبر عن المفهوم بدقة كافية مستعملا 
القواعد النحوية والصرفية 2 اللغة التي يترجم إليها" .)١( of‏ 

أما التعامل مع الجمل الطويلة فهو من أهم مشاكل الترجمة حيث يحتاج ذلك 
إلى معالجات ذهنية معقدة. فحينما تحوي الجملة الطويلة على عدة مفاهيم فإن 
ag gall‏ الواحد ربما يتجزاً ليتكامل بين بدء الجملة ونهايتها. وقد يتضمن المفهوم 
الواحد مفاهيم ثانوية. وقد يكون المفهوم المهم مندسًا بين عدد من المفاهيم الأقل 


1٤ 


الحرفالعربي والتقنية 
أبحاث في حوسبة العربية 


أهمية منه. وهكذا فإن الجملة الطويلة ربما تستعصي على الفهم والتحليل وتحتاج 
براعة عند التركيب # اللغة المترجم إليها. 


يمكننا أن نذكر أن المترجمين لا يقومون كلهم بالخطوات نفسهاء بل إن كل 
مترجم له أسلوبه الذي يتبعه 2 الترجمة. ماذا نفعل تمامًا حينما نحاول فهم نص 
غير معروفة على وجه الدقة وتخضع لنظريات غير مؤكدة حتى الآن. وليس هناك 
أساليب متفق عليها حتى الآن يمكن أن ننقلها بشكل من الأشكال إلى الحاسوب .2 
الترجمة الآلية. لذلك فإن فهم النص يعتبر مشكلة كبرى 2 Ase WI‏ فهناك 2 
كل اللغات لبس دلالي نتيجة تعدد معاني بعض الكلمات وتحديد الجهة التي تعود لها 
بعض الضمائر .)١(‏ وهناك غموض آخر بسبب بناء أوتركيب الجملة يسمى اللبس 
النحوي» حيث تعني الجملة أكثر من معنى أو يمكن تفسيرها بأكثر من طريقة: كما 
أن هناك لبس على المستوى Pall‏ 2 خاصة 2 الأفعال المتعدية لمفعولين والصيغ 
بين عدة وحدات لغوية مثل تغير معنى الفعل حسب حرف الجر الذي يأتي بعده مثل 


رغب 4" و"رغب Qe‏ وهناك مصادر أخرى عديدة للبس )0( 

إن حرف الجر قد يأخذ معاني مختلفة بين اللغات المختلفةء فمثلا اللام .2 
جملة: "أعطيت تفاحة لأحمد" تعني اللام toso‏ بينما ‏ جملة CASI"‏ تفاحة 
aas‏ تعني أن التفاحة هي "ملك أحمد of‏ 
الحاسوب 2 خدمة الترجمة 

الترجمة الآلية اليوم لا ترقى إلى المستوى الذي يضاهي المترجمين من البشر. 
لكن الحاسوب اليوم بإمكانه أن يقدم عونا لا بأس به للمترجم. ومن هذا العون ما 
xal‏ )9( 


Y\o 


.١‏ الترجمة الآلية التى تحتاج الى تحرير لاحق» أى الحاجة | اجعة 
لتر ية التي تحتاج إلى تحرير لاحق» اي جة إلى مر 


بشرية بعد الترجمة الآلية. 


بتبسيط الجمل الطويلة وتحديد معاني الكلمات ذات المعاني المتعددة. 


ay‏ التحاور مع الآلة بين المترجم والحاسوب» حيث هناك برامج حاسوبية 
ذوات إمكانيات حوارية ob‏ تعطي الترجمة جملة بعد جملةء ويتوقع من 
المترجم أن يوافق أو يعدل عليها. 


t‏ قيام المترجم بالترجمة وتساعده الآلةء GIS‏ تعطي الآلة للمترجم الكلمات 
ذات العلاقة من المعجم مع مرادفاتهاء وهو يختار من بينها. 


4. الخدمات الحاسوبية الأخرى وسنورد بعض ما يتوفر من برمجيات تخدم 


نشأة الترجمة الآلية وتطورها 

كان Jal‏ من استخدم الحاسوب 2 الترجمة Labs‏ هو وارن ويفر عام 
VALY‏ فقد كتب لك عام ۱۹١۹‏ مذكرة لزملائه بأربعة مقترحات لتطوير أنظمة 
الترجمة الآلية لكي تتقدم أكثر من الترجمة كلمة كلمة وذلك بفحص المفهوم 
المباشر للكلمات الغامضة. كما أشار إلى التناظر بين تركيب المخ البشري والآلات 
المنطقية ثم انتهى بأن الترجمة الآلية ممكنة التحقيق. و2 تلك الفترة كانت هناك 
حاجة سريعة للترجمة غير الدقيقة نظرًا لحاجة الولايات المتحدة للاطلاع على 
اتصالات الاتحاد السوفياتي. و2 الوقت نفسه ظهرت الحواسيب. ولذلك كانت 
أنظمة الترجمة من الروسية إلى الإنكليزية أولى المحاولات: فقد أجريت بنجاح 
-2 جورج تاون أول ترجمة من اللغة الروسية إلى الإنكليزية عام 10$ و عام 
06 أجريت 2 الاتحاد السوفياتي أول تجربة 4 الترجمة الآلية من الإنكليزية إلى 
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الروسية باستعمال قاموس يحوي 7٠٠١‏ كلمة. وأشارت التجربة إلى ضرورة تمثيل 
التراكيب اللغوية بمستوى بناء الجملة وبالمستوى المعجمي» كما اتضح أن مشكلة 
الفموض هي مشكلة فعلية رغم أنها لم تقدر حق قدرها حينئذ» حيث كانت الفترة 
من ٠٠٠١١‏ إلى 1577 فترة التوقعات الكبيرة من الترجمة الآلية التي لم يتحقق ما 
كان يؤمل من الحصول على دقة بنسبة 70 دون معالجة مسبقة للنصوص. لقد 
أوضحت الأبحاث أن تركيب اللغات أكثر تعقيدًَا مما كان متصورًاء وأن المترجمين 
من البشر يستعملون الكثير من المعرفة 4 حقل المادة المترجمة والمعرفة بالحياة 
العادية أكثر مما كان متصورًا. وأدى ذلك إلى gleba‏ 2 أبحاث الترجمة الآلية 
وربما إهمال الموضوع حتى عام .)١( 1١510‏ 


عادت الأبحاث على أشدها 2 أوربا وكندا واليابان بين عامي ۱۹۷۵ و٩۱۹۸‏ 
باستعمال الأنظمة الخبيرة وأبحاث معالجة اللغات الطبيعيةء وبشكل خاص للغات 
الأوربية واليابانيةء وبذلك ظهر الجيل الثاني من برامج الترجمة الآلية فظهرت 2 
الأسواق برامج تجارية تستعمل الحواسيب. وهذا التطور شمل البحوث المعجمية 
والنحووالصرف والدلالة. 

و عام ۹۸۹ كانت بداية الجيل الثالث من برامج الترجمة الآلية التي استندت 
إلى المعلومات الإحصائية حينما قامت شركة (Y^) IBM‏ بمشروع Candide‏ 
المستند إلى الترجمة بالأمثلة والترجمة المحدودة الموضوع مع تعدد اللغات المترجم 
منها والمترجم إليهاء فازداد الاهتمام بالترجمة الآلية لحد لم يسبق له مثيل. وقد 
استندت هذه الترجمة إلى الذخيرة اللغوية Corpus Based‏ والتي لا تزال 2 تطور 
حتى اليوم مع بعض التكامل مع الأساليب الأخرى للترجمة الألية .)١(‏ 

Lal‏ الترجمة من اللغة الإنكليزية إلى العربية فقد كان Sol‏ ظهورها 2 نهاية 
السبعينيات 2 ولاية يوتا الأمريكيةء ولم يكن يحتوي البرنامج على تحرير shal‏ 
لكن كان بالإمكان إجراء تحرير نهائي. وقد احتوى النظام على مرحلتين الأولى 
لتحليل اللغة المصدر والثانية لتوليد اللغة الهدف. كان تحليل alll‏ الإنكليزية 
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موجهًا لكي يولد العبارات 4 اللغة الهدف بشكل مباشر باستعمال معجم ثنائي 
اللغة للعبارات. ولم تكن الألفاظ والجمل الإنكليزية تحلل بعمق» بل فقط Ley‏ يكفي 
لتوليد المقابل باللغة العربية. وهكذا كان النظام باتجاه واحد ولم يكن يغوص بعمق 
ج اللغة المصدر. وقد استعمل البرنامج لترجمة الموسوعة البريطانية ( بريتانيكا) 
إلى اللغة العربية )1 (. كما قامت سلطنة عمان بالحصول على امتياز للبرنامج 
لكي يستعمل 2 ترجمة الوثائق الإنكليزية إلى العربية. 

لم تكن الطريقة المباشرة ب4 الترجمة تفوص 2 أعماق اللفة Qus‏ ومن 
ثم أدرك مطورو البرمجيات أن الطريقة المباشرة لا تكفي لمعالجة اللغات الطبيعية 
المعقدة. فقد وجد أن التعامل مع الجمل باستبدال مواقع الفعل بين الإنكليزية 
والعربية Ali drinks coffee fis‏ فترجمتها إلى: "يشرب علي القهوة" احتوى على 
استبدال موقع الفعل والفاعل لكن ذلك لا يكفي 2 جملة مثل: 


The boy whose clothes are dark and carrying a flag in his right hand 


talked to me. 


فمثل هذه الجملة تحتاج إلى تحليل Gree‏ لتحديد الفاعل ومن ثم اقترانه بالفعل 
حيث بينهما عدد كبير من الكلمات. وعلى ذلك فإن الطريقة المباشرة لا تعطي نتائج 
دقيقة fil‏ هذه الجمل الطويلةء لذا فقد برزت حاجة لتطوير المعرفة بكيفية تحليل 
ool‏ الطويلة بعمق وكفاءة دون غموضء وعند ذلك ظهرت الطريقة التحويلية التي 
قدمت للترجمة الآلية أمرين: الوصف لتحليل الجملة ومن ثم التقنية الجديدة لتمثيل 
هذا التحليل العميق. وهو ما طور خلال السبعينيات والثمانينيات من القرن الماضي. 

إن استعمال أنظمة الترجمة الآلية قليلة الدقة يدفع إلى -بشكل مطرد- 
للاستعانة بمترجمين من البشر. وقد وظفت بلدان كثيرة الترجمة الآلية لخدمة 
متطلباتها الاجتماعية والاقتصادية والعلمية والتقنية 2 طليعتها الولايات المتحدة 
وروسيا والصين واليابان (١و؟؟)‏ . 
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لقد أجريت منذ الثمانينيات 2 القرن الماضي العديد من الأبحاث حول 
المعالجة الصرفية للغة العربية وكان معظم تلك الدراسات ينصب على عملية 
فصل السوابق واللواحق ب الكلمة العربية AUS pL‏ ومن ثم استخلاص الجذر 
لمعرفة العمليات الصرفية التي أجريت عليها والتي يمكن للحاسوب القيام بها بعد 
برمجته بشكل دفيق. 

قام كيفن نايت ودانيال ماركو بتحويل الأبحاث العلمية المتعلقة بالترجمة الآلية 
إحصائيا 2 عام ٠٠١"‏ إلى منتج للترجمة الألية من العربية إلى الإنكليزية؛ ONS‏ 
[ae Vide uL TS‏ لتكوكى :5 خيرة 393 مقائلة Ags pall Cus‏ والإتكليوية LE‏ 
منها للترجمة الآلية. 

كما وجد أن استكشاف أسماء الأعلام والبيانات المعروفة ببرنامج خاص 
يمكن أن يحسن من الترجمة:؛ فما أن يكتشف مثل هذا الاسم حتى يمكن القيام 
بعدة عمليات تفيد ب2 الترجمة؛ فمثلا عند اكتشاف أن كلمة مثل aas‏ هي اسم 
علم فإنها لا تترجم على أنها I praise‏ 

كما ظهرت بعض الأنظمة الهجينية (TE)‏ التي تستعمل للترجمة المكتوبة 
والمنطوقة باستعمال الطريقتين: الطريقة الإحصاتية والطريقة المستندة إلى 
القواعد (YOYE)‏ وبعد النظر إلى كل من الطريقتين من ناحيتي الفوائد والمضار 
يمكن المزاوجة بينهما للحصول على الفوائد من كليهما واستبعاد المضار (OY)‏ 

هناك الآن 2 الأسواق أعداد كبيرة من برامج الترجمة الآلية بين اللغات الأوربية, 
وقد ازداد الطلب عليها بشكل واسع وساهمت شبكة الإنترنيت بزيادة الحاجة إلى 
الترجمة الآلية وسهلت 2 تبادل المادة المترجمة إلى من يحتاجها . ولا يزال التقدم 
على أشده 2 تكامل عمل المترجمين من البشر مع الترجمة AW‏ حيث يحتاج التقدم 
بمستوى الترجمة الآلية إلى مترجمين أكفاء لتطويرها والارتقاء بها (V)‏ 


¥\4 


مزايا الترجمة الآلية 

يحتاج المجتمع البشري اليوم إلى كمية هائلة من المعلومات التي يراد ترجمتها 
بما يفوق ما يتوفر من مترجمين من البشر خاصة بعد تفجر ثورة المعلومات وتنوع 
اللغات التي تساهم 4# إنتاج المعرفة اليوم وما يحتاجه من لا يتكلمون تلك اللغات. 
ورغم التأريخ الحافل للغة العربية ‏ مساهمتها 4 المعرفة البشرية: لكنها اليوم 
ليست المصدر الأهم 2 العلوم والتقنيات الحديثة. وهذا يجعل عملية الترجمة 
من اللغات الأخرى إلى اللغة العربية ذات أهمية بالغة للناطقين بالعربية؛ Lala‏ أن 
يتعلموا لغة أو لفات أخرى بجانب العربية أو أن يترجم لهم ما يصدر من معرفة 
باللفات الأخرى. فالتخلف 4# الترجمة إلى اللغة العربية يفسر الإقبال الشديد 
على تعلم اللغة الإنكليزية خاصة والتدريس بها 2 الجامعات والمدارس -2 كثير من 
الأقطار العربية .)١(‏ 

يضاف إلى ما سبق سبب تان 2 أهمية الترجمة الآلية هو أن عملية الترجمة 
مملة للمترجمين وتستهلك الأوقات الطويلة منهم» فهم يحاولون التغلب على المل 
بتغيير أسلوب الترجمة أو بالراحة. والمترجم حاله حال البشرء ينام ويمرض ويغير 
عمله ويتقاعدء وهذا يجعل المترجمين من البشر بضاعة نادرة. كما أن غالبية 
المترجمين يتقنون لغة واحدة مع اللغة الأم. وهذا بخلاف الآلة التي يمكنها أن تعمل 
الوقت الطويل ويمكن استبد الها بما هو أكفاً منها مع التقدم التقني المستمر إذا ما 
تقادمت .)١(‏ 

وهناك أسباب أخرى منها أن المؤسسات الضخمة ترغب 4 استعمال 
مصطلحات وعبارات محددة ينبغي أن تعاد كلما مرت تلك celo all‏ والمترجمون 
من البشر عادة يحاولون تغيير أساليبهم ابتعادًا عن الملل؛ إضافة إلى أسباب 
اقتصادية وتجارية 2 استعمال الترجمة المستندة للحاسوب حيث تزيد من حجم 
ومن سرعة ما يراد ترجمته مما يحقق للمؤسسات والشركات انتاجية عالية بسرعة 
هائلة. كما أن حاجة القطاع التجاري قد تكون إلى ترجمة تعطي فكرة عامة عن 


YY: 


الحرفالعربي والتقنية 
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المنتجات الصناعية والتجارية دون أن تكون على درجة عالية من الرصانة. يجري 
هذا مع ازدياد حجم fis‏ هذه المعلومات المطلوب ترجمته ا وتوسعها لتشمل لغات 
جديدة .4 عصر العولمة. وهذا ما يجعل الترجمة الآلية رغم انخفاض كفاءتها 
مفيدة (١و؟؟).‏ 


5. مستويات برامج الترجمة الآلية وأنواع منها 


يمكن تصنيف برامج الترجمة الآلية بحسب مستوياتها التي تعكس مدى 
تعقيدها ومدى كفاءتها 2 الترجمة إلى الأصناف AY‏ بشكل تقريبي (UU)‏ 


المستوى الأدنى: تستدعي الترجمة الآلية البدائية ترجمة كلمة لكلمة دون 
أية معالجة آلية قبل ذلك» ويمكن بعد ذلك للمترجم البشري أن يفهم من المادة 
الناتجة المقصود من العبارات فيقوم بإعادة صياغتها بشكل جديد بحيث يعيد 
ترتيب الكلمات والعبارات ويولد الجملة المطلوبة ويقوم بالتأكد من دقة وسلامة 
الجملة. وهذا المستوى يحتاج إلى معجم ثنائي اللغة ضخم ومعجم للكلمات التي 
تحتاج أكثر من كلمة تقابلها. 

المستوى التالي الأعلى من المستوى الأدنى :2 هذا المستوى تجرى بعض المعالجات 
الصرفية لغرض التعامل المخفي مع الكلمات. ويمكن اعتبار الترجمة بالأمثلة ضمن 
هذا المستوى بوجود ذخيرة من جمل وعبارات متوازية. 

المستوى المتوسط الأول: يحتاج هذا المستوى إلى شجرة إعراب للجملة (محلل 
نحوي) باللغة المصدر ومن ثم تسقط على اللغة المترجم إليها. 

المستوى المتوسط الثاني: 2 هذا المستوى هناك حاجة للتمثيل الدلالي بين 
cali‏ فمثلا إذا قلنا "رأسي يؤلني" بالعربية: فترجمتها بالإنكليزية هي Ihave"‏ 
headache‏ والتي تترجم حرفيا إلى "لدي صداع"". وعلى هذا فمن الضروري فهم 
المعنى وتمثيله بشكل سليم» لكي يمكن إيجاد المرادف له ج اللغة الأخرى. 


۲۲١ 


المستوى الأعلى: لا يزال البحث 2 هذا المستوى يجري» وذلك للأخذ بعين 
الاعتبار الأساليب البلاغية العميقة 2 اللغتين؛ وتكاد تعاني كل برامج الترجمة 
الآلية حاليًا من قصور 2 هذا الجانب (YY)‏ 


وك كل الأحوال على برنامج الترجمة الآلية أن يقوم بعمليتين رئيسيتين: 
mun .)‏ أي عملية إيجاد ما يقابل كلمات وعبارات وجمل النص iia’!‏ 
وكذلك إيجاد التراكيب النحوية المقابلة للتراكيب الواردة فيه. 


Lely‏ العملية الثانية فهي صياغة الجمل الناتجة من عملية النقل السابقة 
صياغة صحيحة Ki pio‏ ونحويًا وأسلوبيًاء مثل صياغة: (عامل) + (جمع) 
-2 صورة (عمال) و (معلم) + (جمع) + (حالة النصب أو الجر) 2 
صورة ( معلمين) ؛ وكذلك وضع الصفة 2 العربية بعد الموصوف ومراعاة 
قواعد المطابقة اللازمة (١و؟).‏ 


وفيما يأتي تفصيل لأهم أساليب الترجمة الآلية المستعملة اليوم. ونشير إلى 
أن كل هذه الأساليب ما زالت قاصرة إن استعملت لوحدهاء لذلك فمن الضروري 
للارتقاء بالترجمة الآلية اعتماد أكثر من أسلوب بشكل متوازي لرفع مستوى 
الترجمة خاصة لفك الغموض (١”و8؟).‏ 
الترجمة باستعمال لغة وسيطة 

تستند لغة التشبيك العالمية (YV)‏ إلى تحويل اللغة المصدر إلى لغة تمثيل 
للانص لا يعتمد على أية لغةء ومن ثم يمكن ترجمة هذه الرموز إلى أية لغة أخرى, 
وهذا يعني أن هذه الطريقة يمكن أن تخدم الترجمة إلى لغات متعددة بالتوازيء 
بينما تحتاج الطريقة الإحصائية التي سيرد ذكرها فيما بعد إلى جهد وذخيرة 
لغوية متوازية بين كل لغتين يراد الترجمة بينهما. إن التحدي الذي تواجهه هذه 
الطريقة هوتكوين لغة تمثل المقصود باللغات كلها دون لبس لكي يمكن الترجمة 
منها. يحتوي برنامج الترجمة بهذه الطريقة على ثلاثة أجزاء هي: 


YYY 
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الوحدات اللغوية والتي تضم المعاجم التي تحتوي على كلمة عالمية تمثل المفردات 
العالمية وتضم القواعد النحوية لتحويل اللفات الطبيعية إلى هذه اللغة العالمية بما 
-2 ذلك من علاقات وأوصاف وملصقات وكل ما تحتاجه اللغات الطبيعية لكي تكون 
عبارات فصيحة وواضحة ومفهومة 2 اللغة المراد الترجمة إليهاء وهذا ما يستدعي 
وجود قاعدة معرفة هرمية الشكل للمفاهيم الموجودة 2 اللغات الطبيعية. إن هذه 
اللغة هي لغة اصطناعية يمكن بوساطتها العبور نحو اللغة الهدف وتتمثل كفاءتها 
2 دقة تمثيل اللغة المصدر ومدى إمكانيتها لتحويل ذلك التمثيل إلى اللغة الهدف. 

إن الفكرة وراء الترجمة الآلية المستندة إلى التحويل (YA)‏ هي أن يكون هناك 
تمثيل وسيط يلتقط معنى الجملة الأصلية بحيث يكون وعاء للمعرفة لا يعتمد على 
لغة معينة ولا على حقل معين لغفرض توليد الترجمة الصحيحة. ويمكن تحسين 
الترجمة بصياغة المعرفة اللغوية وتزويد الحاسوب بقواعد كافية للتعامل مع 
الخصائص اللغوية. إن قوة هذه الطريقة الحقيقية هي 2 إمكانية تمثيل المعرفة 
بهذه اللغة الوسيطة. 

تعتمد الطريقة على تمثيل النص من اللغة المصدر بشكل شبكة نحوية كلية 
باستعمال لغة تسمى لغة التشبيك الكلية والتي يمكن بعد ذلك تحويلها إلى أية لغة 
أخرى (۲۷). 

وقد جربت هذه الطريقة على نحو ٠٠٠١‏ صفحة من موسوعة أنظمة دعم 
الحياة إلى اللغات الستة التي تدعمها وثائق اليونسكو وكانت النتائج لا بأس بها. 
وعلى هذا فحينما يكون المطلوب ترجمة نص لعدد من اللغات فإن التحويل بهذه 
الطريقة قد يكون خيارًا مفضلا (Y)‏ 
الترجمة الآلية المستندة إلى الاحصاء 

تحتاج هذه الطريقة الحديثة لجمع أكبر ما يمكن من ذخيرة لغوية (corpus)‏ 
والقيام بجهد إحصائي كبير عليها لكي تصبح مناسبة للاستخدام 2 الترجمة 


yyy 


الآلية. وبالطبع فإن الذخيرة المترجمة هي بالأساس مترجمة من قبل مترجمين من 
البشرء وهي بذلك تستخلص خبرات البشر للإفادة منها 2 الترجمة الآلية .)١(‏ 


تعتبر الذخيرة اللغوية لأية لغة مرتكرًا أساسيًا اليوم للباحثين 4 اللغات 
الطبيعية. فالخزن على الحواسيب جعل جمع وتصنيف وتحليل الذخيرة اللغوية 
ميسورًا. وهذه الذخيرة تمكن الباحثين من إطلاق الوصف على خصائص اللغة 
وعلى النحوفيها ودراستها تاريخيًا وتفيرها مع الزمن .)١١(‏ 

تجمع الذخيرة اللغوية المناسبة (يجب أن تكون من الضحامة ما فيه الكفاية) 
النحوية والصرفية. وعلى هذا فيتوقع منها أنها تمثل اللفة بشكل تقريبي. ونظرًا 
لاعتماد هذه الطريقة على الذخيرة LAUS‏ اللغة ol)‏ متعددة اللغات)ء فيجب أن 
تكون هذه الذخيرة شاملة وواسعة ودقيقة. وهو أمر 2 غاية الندرة. وتتوفر مثل هذه 
الذخيرة اليوم 4 اللغات العالمية الأخرى غير العربية لضخامة ما يتوفر من كتابات 
محوسبة كالصحف والمجلات والكتب المطبوعة والمقالات المنشورة على الإنترنيت 
والإعلانات ونشرات الشركات التجارية وهي تمثل اللغةء ومن ثم تستفيد الترجمة 


الآلية من مثل هذه الذخيرة .)١59١6(‏ 


إن الحجم الأدنى للذخيرة التي يمكن الاعتماد عليها لغرض الاستعمال 2 
الترجمة يبلغ مئات الملايين من الكلمات. وبهذا الصدد لا تزال الذخيرة اللغوية 
المتوفرة باللغة العربية مع ترجماتها للغات الأخرى محدودة. 

هناك عدة أنواع من الترجمة الإحصائية؛ فمنها المباشرة التي تستند إلى 
معجم عبارات للغتين. أما الترجمة الإحصائية غير المباشرة فيجري فيها القيام 
بعمليات تحويل لغوية عديدة للإفادة من الذخيرة كالتحويلات الصرفية والنحوية 
والدلالية وحذف السوابق واللواحق والقيام بعمليات إحصائية واستعمال الأنظمة 
الخبيرة. كما أن هناك الترجمة الإحصائية بالأمثلة التي (Liss‏ للقيام بإعراب 


٤ 
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الجملة بلغتها الأصلية ثم القيام بعدد من التحويلات بإعادة السلسلة الظاهرية 
2 اللغة الأصلية لكي توافق التسلسل المطلوب 2 اللغة المترجم إليها. وتجرى هذه 
العمليات على الجزء من الذخيرة المستعمل للتدريب وكذلك على النصوص المراد 
ترجمتها ويحتاج ذلك لحل مشكلة تقابل عدة كلمات 2 لغة مقابل كلمة 2 اللغة 
الأخرى وبالعكس (OY)‏ 


تستند عملية تهيئة الذخيرة حاسوبيًا على استخراج الكلمات المكررة وغير 
المكررة ب الذخيرة (VGN)‏ ثم بعد ذلك الحصول على قائمة بكل كلمتين 
متعاقبتين ثم قوائم العبارات المتقابلة بين اللغات المراد الترجمة منها وإليها. 
وبالطبع فإن هذه الطريقة بأسلوبها المبسط لا تعطي ترجمة دقيقة وهي بحاجة 
إلى معلومات نحوية وصرفية لزيادة الدقة. وقد استعملت هذه الطريقة ‏ ترجمة 
محاضر البرلمان الكندي بين اللغتين الفرنسية والإنكليزية فوجدت ناجحة لحد 
كبيرء وذلك بسبب أن موضوع التحاور 2 أروقة البرل مان ذو نمط معين وبأساليب 
متعارف عليها بين المتحاورين .)١(‏ 

إن الخطوة التالية 2 معظم برمجيات الترجمة الآلية المستندة إلى الإحصاء 
بعد استكمال الذخيرة اللغوية المتوازية هي توليد الكلمة المقابلة بين اللغتين وحل 
مشكلة عدم تساوي aae‏ الكلماث بين اللعكين (MA)‏ 

تعتمد دقة الترجمة الإحصائية على نوع ودقة الذخيرة المستعملة وعلى 
البرمجيات المستعملة فيها (Y)‏ ويجدر بالذكر أن تغير اللغة والمفردات المستعملة 
بمضي الزمن وضحامة الذخيرة المطلوبة يستوجب وجود معجم تأريخي للغة. 
JL Sas‏ على ذلك فإن كلمة السيارة" حين ترد 4 نص مكتوب قبل قرون تعني 
غير "السيارة" المكتوبة ب نص مستعمل اليوم. وكذلك فإن استعمال بعض أسماء 
الأعلام يحتاج وجود قرائن ب البرنامج لكي يقوم بترجمتها بمعناها وعدم 
اعتبارها أسماء أعلام. فمثلا كلمة: "أحمد" 2 جملة "أحمد الله على نعماثه 
هي ليست إسم علم. ومن الصعوبة بمكان على الآلة تحديد هل الكلمة ذات معنى 
أم اسم علم بدون قرائن كافية. 


YYo 


الترجمة بالأمثلة 

الترجمة المعتمدة على الأمثلة تستند إلى ترجمة جمل قصيرة باستعمال d‏ خيرة 
لغوية ضخمة مبوبة على مستوى العبارات وقد استفيد من وثائق الأمم المتحدة 
متعددة اللغات بهذه الطريقة. لا تعتمد هذه الطريقة من الترجمة على الهيكلية: 
حيث أن الأمثلة تخزن بشكلها السطحي مع تعاملات صرفية وتجزئة للكلام 
محدودة. حيث تقابل كل جملة مع ترجمتها باستعمال عمليات صرفية محددة. 
وتجري عملية المقابلة بالرجوع إلى خوارزمية تحدد المعاني التقريبية للكلمات بدل 
استعمال معاجم ثنائية اللغة. وأهم ما 2 هذه الطريقة أنها تحاكي الطريقة التي 
يفكر بها المترجم البشريء فالذخيرة التي تستند إليها هذه الطريقة هي القوائم 
متعددة اللغات للكلمات والعبارات والجمل المتوازية. وتقوم الترجمة بإيجاد المقابل 
للنصى المطلوب ترجمته من القوائم المتوفرة. وهذه العملية تسمى التحويل؛ تليها 
عملية دمج العبارات المختلفة لتوليد النص النهائي باللغة الهدف .)١(‏ 

إن الترجمة بالأمثلة لا يمكن أن تعتبر كافية لإتمام عملية الترجمة ALIS‏ 
لكنها يجب أن تتم مع طرائق أخرى للترجمة بحيث يكمل بعضها بعضًا. وتستند 
هذه الطريقة إلى إجراء أبحاث على الذخيرة اللغوية لاستخلاص الأمثلة والعبارات 
الشائعة المتقابلة بين اللغتين المراد الترجمة بينهماء إضافة إلى استخلاص قوالب 
نحوية بين اللغتين لتعويض الكلمات المقابلة بين اللغتين. هذه الطريقة فعالة 2 
Aa yall ala‏ بين call‏ الى age‏ لأضوق La‏ متلا لكق pal‏ يردا د ضعوية 
بين اللغات التي تعود إلى عوائل مختلفة. 
الترجمة الآلية واللغة العربية 

تمتاز اللغة العربية بميزات خاصة مختلفة عن اللغات الأخرىء» و2 الوقت 
نفسه تجمعها مع اللفات الأخرى ميزات عامة» لذلك يمكن الاستفادة من هذه 
الميزات العامة مع اللغات الأخرى والبناء عليها لتفطية خصوصيات اللغة العربية 


YYA 
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سواء 2 الترجمة من العربية أو الترجمة إليها. فمن الأمور المشتركة بين عدد من 
اللغات تعدد المعاني للكلمة الواحدة ووجود جمل ليس فيها فعل. كما تحوي اللغة 
Ay pall‏ على عوامل صرفية عديدة منها السوابق واللواحق والأواسط وتغيير صيغة 
الكلمة. هذا يعني أن أية ترجمة آلية يجب أن تحوي تحليلا gd‏ للوصول إلى الجذر. 


إن الترجمة الجيدة يجب أن تقتنص المعنى is La,‏ ونعني بالكفاءة الوصول 
إلى المعنى المقصود بدقة باستخدام أكبر ما يمكن من قرائن. »وهذا ما تفتقده 
أنظمة الترجمة الآلية بالوقت الحاضرء وهوما يضع Lise‏ على من يقوم بالتصحيح 
بعد الترجمة؛ والذي قد يكون أكثر مما يمكن أن يبذل بالترجمة البشرية أحيانًا 
إذا كانت الترجمة سيئة. 

he خصوصيات اللغة العربية ذات العلاقة بالترجمة اليوم فمنها‎ Lil 
التشكيل رغم أنه جزء رئيسي من النص المنطوق؛ مما يفرض على القارئ افتراض‎ 
يقوم به المترجم كذلك» مما‎ be تشكيل من عنده بما يملكه من ثروة لغوية. وهو‎ 
ويزيد الأمور تعقيدًا ندرة‎ .)٠١( يستدعي إيجاد بديل لذلك 2 الترجمة الآلية‎ 
استعمال علامات الوقف والفواصل 2 النصوص العربية.‎ 

كما تمتاز اللغة العربية بدمج السوابق واللواحق والإدغام والإقلاب وغيرها. 
أما الجمل الطويلة 2 اللغة العربية فتحتاج إلى عمليات حاسوبية معقدة لتحليلها 
مما يؤدي إلى أن تصبح المعالجة das‏ ومن العمليات التي تساعد 2 ذلك تقسيم 
الجملة إلى عبارات المضاف والمضاف إليه والجار والمجرور وأشباه الجمل .)١١(‏ 

أما من الناحية التأريخية فإن التغييرات التي صاحبت اللغة العربية كانت أقل 
بكشير من لغات أخرى كالإنكليزية التي شهدت تطورًا هائلا خلال القرون الأخيرة 
بالمقارنة مع اللغة العربية التي لا يزال تراثها المكتوب منذ صدر الإسلام ولحد الآن 


لم يحدث عليه تغيير جوهري 3# المفاهيم العامة. 


YYN 


ولغرض أن تكون الترجمة الآلية مقبولة يجب القيام بعدة عمليات على النص 
العربي برمجيًاء منها على سبيل المثال لا الحصر ما يأتي (Y)‏ 


° إضافة الرموز للنص كالفوارز والفواصل والنقاط ومعالجة الهمزات 
والتفريق بين الهاء والتاء المربوطة والتشكيل للأحرف التي فيها لبس. 


© مراعاة وجود السوابق واللواحق وتحديد أجزاء كل منها إن وجدت كألف 
لام التعريف وحروف العطف وحروف الجر المتصلة والضمائر وعلامات 


e‏ مراعاة قواعد تغيير LS‏ الكلمة بعد الحاق بعض الضمائر المتصلة مثل 
كلمة " MSN — (Acl 1 rr -àz‏ 

e‏ تحديد فيما إذا كان العدد المتضمن ضمن الكلمة مفردا أو مثنى أو جمعًا 
وذلك من خلال علامات الجمع الواو والنون والياء والنون وعلامات 
المثنى من خلال الألف والنون والياء والنون وغيرها. 

© تحديدالمعنى عندما يكون هناك وجود لأكثر من احتمال 2 تحديد الكلمة 
المراد ترجمة معناها مثل الكلمات التي تعطي أكثر من معنى باختلاف 
التشكيل كأن يكون الفعل مبنيًا للمجهول أو للمعلوم أو أن يكون اسمًا أو 
Sas‏ مثل: ذهب aso‏ 3 


e‏ التحليل النحوي لتحديد التركيب الدقيق للعبارة أو الجملة حيث يقوم 
البرنامج بتطبيق قواعد منطقية بهدف الوصول إلى الترجمة باللغة 
الهدف. 

٠‏ الربط بين تركيب الجملة ومركباتها الدلالية لغرض الوصول إلى الترجمة 
الهدف. 

e‏ التركيب المنطقي بتمثيل الجملة الأصلية باللغة الهدف. 
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© تحسين الجملة باللغة الهدف نحويًا وصرفيًا ودلاليًا. 


الأبحاث 2 الترجمة من اللغة العربية وإليها 

اهتمت 2 الآونة الأخيرة كثير من الجامعات الأمريكية والأوربية والعربية 
بمعالجة اللغة العربية حاسوييًا والترجمة منها وإليها. وتتوزع الأبحاث على 
النحووالصرف والدلالة والترجمة وجمع الذخيرة اللغوية وأساليب تكوين المعجم 
المحوسب وعملية الاستفسار باللغة العربية وتكوين الخلاصات وغيرها .)١(‏ 


إن الكلمات العربية المركبة غالبا ما تتكون من سوابق ولواحق» وحيث إن عملية 
فصل هذه اللواصق فيها كثير من الإبهام» لذلك هناك حاجة للرجوع إلى المعنى 
بالإضافة إلى القواعد الصرفية والنحوية. كما أن عملية فصل اللواصق تزداد 
صعوية 2 العربية بسبب غياب التشكيل Bole‏ 


تقع عملية فصل اللواصق 4# ثلاثة أصناف: صنف يستند إلى قواعد وصنف 
يستند إلى الإحصاء وصنف يعتمد المعجمية كأسامس له. الصنف الذي يعتمد 
القواعد يستند على المعرفة اللغوية المأخوذة من الخبرة البشرية بحيث تحول هذه 
المعرفة إلى قواعد وهذه القواعد معروف أن الوصول إليها ليس بالسهولة بمكان. 
كما إن الكثير من هذه القواعد ليست حدية ولها استثناءات. أما الصنف الذي 
يعتمد على الإحصاء فيحتاج إلى تدريب وبعض المعرفة البشرية لبنائه. 

لقد وجد أن القيام بعملية رصينة 2 فصل اللواصق ذو تأثير أفضل بكثير من 
القيام بالعملية بشكل سطحي. ويمكن أن يتحقق تحسن آخر باستعمال أكثر من 
وسيلة من وسائل فصل اللواصق. 

إن العوامل التي تحكم ترجمة التعابير المركبة متعارف عليها لدى اللسانيينء 


YYA 


الأسماء فإنه يجعل التعامل معها غير ممكن بشكل مباشر )911 dàs Mag. (VV‏ 
أن اللغات المختلفة يمكن أن تحتوي كلمات متشابهة التسلسل وكلمات متعاكسة 
التسلسل وكلمات متشابهة التهجئة. 


ومما يجب معالجته مشكلة المتلازمات اللفظية التي يمكن تقسيمها إلى أربع 
فئات حسب درجة التلازم؛ فالمتلازمات اللفظية المفتوحة الحرة مثل Cooly"‏ الأمر" 
يمكن استبد الها ب gel‏ الأمر'» فاستبدال كلمة بادئ" بمرادفها Sal‏ لم يخل 
ذلك بالمعنى. والمتلازمات اللفظية المقيدة وهي أن ترد لفظتان Ua‏ بحيث تستعمل 
إحداهما بمعناها pod!‏ 2 وتستعمل الأخرى بمعناها المتخصص الذي يمكن أن 
يكون مجازيا مثلا يشقٌّ طريقه". ففي هذا SLL‏ لايعني الفعل "åy"‏ معناه 
الشركة أن et eai ol‏ شيا إلى فتظطريق " بل ola rina‏ هو "أن eM albas‏ 
adag EEE‏ اه EES Bn SEN SEN‏ 
والعبارات المسكوكة المحضة fe‏ وضعت الحرب أوزارها c‏ بمعنى انتهت وتوقفت 
إذ لايمكن هذه العبارات إبدال كلمة بكلمة أخرى أو تقديم إحداهما أو تأخير 


(V) أخرى‎ 


ومما يجب تكوينه المعجم العربي المحوسب الذي ينبغي أن يحصر جميع المعاني 
للكلمة ودراسة مدى شيوع الكلمات ودراسة تكرار الكلمة كمادة وكفئة معجمية 
ودراسة استخدام المرادفات وشكل الكلمة وفق حالتها الإعرابية ودراسة الكلمة 
وفق اشتقاقها الصر ومعرفة مدى السلامة والصحة اللغوية ومعرفة المتلازمات 
اللغوية (V)‏ كما أن المعجم المحوسب يجب أن يحوي رموذا خاصة لتصريف الكلمة 
ومعلومات أخرى عنها تدرج فيها مفردات اللغة بالتفصيل بحيث يكون بالإمكان 
الإفادة منها حاسوييًا. 


محاولات الترجمة الآلية من اللغة العربية وإليها 
قامت محاولات عديدة للبدء بترجمة آلية من اللغة العربية وإليها. وقد أثمر 


خرف 
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بعضها بتكوين أنظمة ترجمة Aull‏ بينما أصبح البعض الآخر طي النسيان. وفيما 
يأتي بعض من هذه المحاولات :)١(‏ 
مصغرًا أسمته "الوله" A)‏ 
o‏ نظام الناقل العربي الذي طورته شركة سيموس S‏ باريس للترجمة 
بين العربية وكل من الإنكليزية والفرنسية (Y0)‏ 
ل نظام شركة أبتك (Y) Apptek‏ 


0 نظام سيستران Systran‏ ويترجم النظام هذا الآن بين0١‏ لغة. لقد ابتداً 
تطوير سيستران لمترجم من العربية إلى الإنكليزية 2 Vs Vale‏ وله 
موقع للترجمة الآن ((YV)‏ وقد امتاز سيستران نتيجة استعماله المكثف 
للمعاجم بقابليته لترميز مكونات اللغة التفصيلية بميزات نحوية وصرفية 
دقيقة. لكن دراسة لفحص المتلازمات اللفظية ( التي تشكل عائقا abel‏ 
المترجم والمتعلم) على نظام سيستران وجدت أن النظام أخفق 4 ترجمة 
معظم المتلازمات اللفظية (V)‏ 

° شركة ألبمس Alps‏ لديها برامج للترجمة بين عدد من اللغات» وتطبق 
ميدأ الترجمة التحاورية (YA)‏ 


O‏ موقعالمسبار وهو موقع يهتم أيضا بالترجمة الآلية من الإنجليزية إلى 
العربية وبالعكس» ويمتاز بالسهولة والمرونة عند استخدامه اذا كانت 
العبارات بسيطة (Y^)‏ ويرتبط موقعه مع المترجم العربي والولك. 


e‏ موقع freetranslation‏ ويترجم Ton‏ لغة (£t)‏ بينها اللغة العربية. 


(SU دعم موق الترجمة (41)والموقع متوقف‎ 4 (A) Le 


۲۳1 


* برنامج شركة جوجل: وهوبرنامج مجاني يستند إلى الترجمة الإحصائية 
من ذخيرة لغوية مأخوذة من الإنترنيت ويتعلم من أخطائه» فإذا ما 
ترجم جملة خاطئة وأخبره المستخدم أن الترجمة خاطئة وأن المفروض 
أن تكون بشكل آخرء فإنه يخزن هذه المعلومات ويستعملها 2 المستقبل 
بشكل أصح. عدد اللغات التي يترجم منها وإليها تبلغ A*‏ لغة (EY)‏ بينها 
اللغة العربية. 


O‏ ترجمة بينغ: من شركة مايكروسوفت. وهي تستخدم من قبل فيسبوك 
وياهو لترجمة التعليقات. تستخدم بينغ "الترجمة الآلية الإحصائية' ؛ 
غير أنها تختلف عن ترجمة جوجل 2 طريقة تنفيذها أو البيانات التي 
تعتمد عليها. وتشمل ترجمة بينغ 4؛ لغة بينها اللغة العربية؛ وتسمح 
خاصية الترجمة التعاونية للمستخدمين بأن يصححوا أو يحسنوا 
الترجمات (EY)‏ 


مقارنة بين بعض برامج الترجمة الآلية من اللغة العربية وإليها 

سنقارن بين ثلاث برمجيات للترجمة الآلية هي جوجل وسيس تران وبينغ 
المذكورة مواقعها أعلاه. وقد اخترنا جملة عربية لترجمتها ومقارنة ترجماتها إلى 
الإنكليزية. ثم ترجمنا الجملة إلى الإنكليزية وأدخلت تلك الترجمة للأنظمة الثلاثة 
للحصول على الترجمة العربية. وقد أعيدت التجربة مرتين 4 شهري أيلول ( أشير 
لها بالرمز (*) ) وكانون الأول ( أشير لها بالرمز (**) ) من عام ٠١١4‏ ويلاحظ 
حدوث اختلاف 4# كل الترجمات من الإنكليزية إلى العربية 2 المواقع الثلاثة, 
بينما الترجمة من العربية إلى الإنكليزية اختافت 2 ترجمة جوجل وبقيت نفسها 
-2 سيستران وبينغ. ويلاحظ عدم الدقة والركاكة 2 الترجمات الآلية كلها تقريبًا. 
كما يلاحظ أن الترجمة قد تختلف بمضي الزمن. 
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ي | حصل تقدم هائل للترجمة الآلية خلال السنوات الماضية خاصة بين اللغات 
الأوربية ذات الأصول اللاتينية لما بينها من مشتركات 

Got tremendous progress of the translation mechanism 
during the past years, especially among European lan- 
guages with Latinos because of the participants, includ- 
ing (*) 

Progress has been made tremendous machine 

translation during the past years, especially 

among European languages with Latin asset 

to them from participants (**) 


Huge progress for the automatic translation during the 
last years collected especially between the European lan- 
guages self of the Latin origins for what between her from 
joint (*) & (**) 

Advances of machine translation over the past years, es- 
pecially between the European languages with Latin ori- 
gins to their subscribers (*) & (**) 


A tremendous progress occurred during recent years be- 

tween European languages due to their common Latin 
origin. 

حدث تقدم هائل خلال السنوات الأخيرة بين اللغات الأوروبية 

بسبب الأصل اللاتيني المشترك (x)‏ 

حدث هناك تقدما هائلا خلال السنوات الأخيرة بين اللغات 

الأوروبية بسبب الأصل اللاتيني المشترك ox)‏ 


تقدم هائل وقع NET‏ ستوات الأخيرة بين لغات أوربيٌ واجب إلى 
أصلهم لاتيني عادي (x)‏ 

تقدم هائل وقع Usi‏ سئوات الأخيرة بين لغة أوربيٌ واجب إلى 
أصلهم (xx) GEY Gale‏ 


yrr 


التقدم هائل الذي حدث خلال السنوات الأخيرة بين اللغات الأورو 
بية بسبب أصلها اللاتيني الشائعة (x)‏ 


التقدم هائل الذي حدث خلال السنوات الأخيرة بين اللغات الأورو 
بية بسبب أصلهم اللاتينية الشائعة (xx)‏ 


2 حال الترجمة من العربية إلى الإنكليزيةء ينصح )££( باستخدام العربية 
الفصحى البسيطة الشبيهة بماقد يوجد # المواقع ALAM‏ والابتعاد عن 
التعبيرات البلاغية. كما ينصح باستخدام بنية الجملة التي تبدأ بالاسم ثم الفعل 
فعا هة الجملة الإكليزية eke one sa‏ يدلا من جاء ga e p‏ 
تكون الجمل العربية طويلة قد يتَبَّع الفعل أكثر من عشر كلمات قبل ورود الفاعلء 
مما يجعل من الصعب على الترجمة الآلية أن تنقل الفعل إلى مكانه الصحيح 2 
الجملة الإنكليزية: بل إن كثيرًا من أنظمة الترجمة الآلية تحذف الفعل بالكامل. 


برامج مساعدة للترجمة 

تخدم المعالجة الآلية للغة العربية بالإضافة إلى الترجمة الآلية: التلخيص 
الآلي والتوليد الآلي للغة واستخلاص المعلومات واسترجاع المعلومات والإجابة على 
الأسئلة والتنقيب 2 النصوص وتحويل الكلام المنطوق إلى مكتوب وتحويل النص 
إلى كلام منطوق والتعرف الضوئي على الحروف ... وهناك أبحاث جارية لكل 
هذه المواضيع. ومن البرامج المتوفرة الآن: برنامج التشكيل والتصحيح الآلي )£6( 
Arab Diac‏ ومجموعة برامج صخر للتدقيق الإملائي Sakhr Corrector‏ وبرنامج 
التشكيل الآلي )£1( Automatic Diacritizer‏ وبرنامج صخر للتحليل pall‏ 2 
(£V)‏ وبرنامج استخراج الكلمات المفتاحية Sakhr Keywords Extractor (£A)‏ 
ومحرك صخر للتصنيف الشجري "سراح" ومحرك صخر للتلخيص الآلي وبرامج 
تنقيب ووصف الكلام )^£( Part of Speech Tagging‏ . وهناك برامج التحليل 
Lal‏ -2 لتحديد جذور الكلمات والمعلومات الصرفية والنحوية ومن هذه البرامج: 
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برنامج ) 1 (o‏ 0+ حيث يستخدم ذخيرة للألفاظ وتحليل إحصائي 
لفك الغموض ومحلل )01( Beesley Xerox‏ وهو مولد ومحلل us‏ 2 مساعد 2 
التعليم وبرنامج باك وولتر للتحليل (0Y) 2- M‏ وبرنامج التنقيب -2 النصوص 
للوصول إلى الأفكار الأساسية وبرنامج محرك البحث النصي العربي Swift (0Y)‏ 
وبرنامج Arab Dictions‏ الذي يقوم بتحليل الكلمات العربية إلى وحداتها الصرفية 
ثم يربط كل الأشكال الصرفية بمادة المعجم المقابل لها وفق الجذر (0E)‏ وبرنامج 
معتمدًا على تشكيل آلي )00( وبرنامج إبصار للمعاقين بصريًا والمكفوفين (YY)‏ 


ترجمة الكلام المنطوق 

تتوفر 2 الأسواق بعض القواميس الصوتية لترجمة عبارات بين لغات متعددة 
بينها اللغة العربية. وكثيرًا ما تحتوي عبارات باللهجات العامية. ويمكن استعمال 
بعض الأنظمة الصوتية 4 حجز الفنادق والحجز على الخطوط الجوية والمشاركة 
-2 المؤتمرات وطلب الطعام من المطاعم والاستفسار عن اتجاه السير والحجز 
لدى العيادات الطبية والمستشفيات واستئجار السيارات وغيرها )3( إن مشاكل 
ترجمة الكلام المنطوق تزيد على مشاكل النص المكتوب» وذلك لأن الكثير من 
الكلام المتداول يحوي أخطاء نحوية أو جملا ناقصة. ولغرض تكوين ترجمة آلية 
Ay 98‏ يجب وضع قواعد عامة ذات مرونة لا تلتزم بقواعد اللغة Aal peas‏ وذلك 
للأخذ بعين الاعتبار تحديد نطاق الكلمات التي يستعملها المتكلم وطريقة نطقها 
وسرعة النطق وطول الجملة وصيغ التوقف بين الجمل. وهناك محاولة لاستعمال 
الرسائل القصيرة على الهاتف النقال للترجمة وتمتاز L gil,‏ قصيرة ومحدودة 
المعجم» وبآنها قابلة للتطور والتوسع .)3١(‏ ولا تزال الأبحاث لمثل هذه الأنظمة 2 
مراحل التطوير. 


YYo 


الاستنتاجات وال مقترحات 

الترجمة الآلية من اللغة العربية وإليها إحدى الوسائل التي تكمن فيها خدمة 
كبيرة 2 نهضة الأمة وأجيالها المستقبلية وذلك GY‏ اللغة العربية اليوم ليست هي 
اللغة العالمية للعلوم والتقنيةء فما يصدر 2 اللغات الأخرى وخاصة الإنكليزية من 
أبحاث ودراسات وكتب ومؤلفات أخرى يحتاج للترجمة للغة العربية. كما أن اللغات 
التي يتكلم بها المسلمون بحاجة إلى التراث العربي الإسلامي غير المتوفر 2 تلك 
اللغات وهناك حاجة ماسة لترجمته. لذلك فالترجمة الآلية من alll‏ العربية وإليها 
ليست من الكماليات بل هي من الضرورات القصوى لنهضة الأمة وعودتها لمكانتها 
بين الأمم. وأول ما تحتاجه الترجمة الآلية هووجود معجم عربي محوسب وتكوين 
ذخيرة متعددة اللغات مع العربية لتساعد 4# الترجمة الآلية المستندة إلى الإحصاء 
ودعم الأبحاث اللغوية المتعلقة بالترجمة الآلية من اللغة العربية وإليها. ولغرض 
الوصول إلى ذلك هناك حاجة إلى القيام بحملة توعية للقيادات السياسية والعلمية 
والجهات الداعمة للبحث العلمي على أهمية البحث العلمي 2 حوسبة اللغة العربية 
من قبل المجامع اللغوية العربية وأقسام الحاسوب واللغة العربية واللسانيات ‏ 
الجامعات العربية كما ينبغي توجيه الأبحاث نحو التطبيق العملي وتكوين قيادات 
بحثية 2 أقسام اللغة العربية ذات خلفية حاسوبية جيدة 5 2 أقسام الحاسوب ذات 
خلفيات جيدة باللغة العربية لكي يكون التواصل والبحث العلمي على أتم وجه .)١(‏ 
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المصادر 


المصادر العربية 
.١‏ محمد زكي خضرء اللغة العربية والترجمة الآلية - المشاكل والحلول - 
المؤتمر الحادي عشر للتعريب - عمان / الأردن ١1-١7‏ تشرين الأول 

Y “A 


والتعريب: http://www.wata.cc/forums/showthread.php?5421-‏ 
الحاسوب-4-خدمة -الترجمة-والتعريب- 


VA محمد بن محمد الغزالي أبوحامد - المستصفى 2 علم الأصول-‎ Y 

34 محمد الصرايرة - اللغة العربية والترجمة الآلية - محاضرة 4 مجمع 
اللغة العربية الأردني - الموسم SLE‏ التاسع عشر ١١٠٠م‏ 

. أبوالحجاج محمد بشير - المعالجة الآلية للغة العربية جهود الحاضر 
وتحديات المستقبل - مجلة لغة العصر المصرية — ٠٠١94‏ 

5. عيدانء عدنان. Lb‏ إبراهيم» الترجمة الآلية من اللغة الإنكليزية إلى 
اللغة العربية: تجربة شركة أي-تي-أي . لتقنية البرامجء مركز دراسات 
الوحدة العربية. ص YAS‏ 

۷. آمنة فاطمة الزهراء - إشكالية حدود الترجمة الآلية: ترجمة نظام 
'سيستران" للمتلازمات اللفظية - رسالة الماجستير كلية الآداب و 
Lal‏ - قسم الترجمة - جامعة منتوري -قسنطينة- الجزائر 
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ue «A‏ الحميف ين العزلان: برتامج " ume‏ 2 الترجمة الآلية من اللغة 


الإنجليزية إلى اللغة العربية - رسالة ماجستير - الجامعة الإسلامية 


العالمية — ماليزيا — أغسطس ٠٠١0‏ 
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Ahmed Abdelali. Jim Cowie and Hamdy S. Soliman. Build- 
ing A Modern Standard Arabic Corpus. Workshop on com- 
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Croatia 25-28" July 2005. 
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تقنيات التعرف الآلي على الكلام المنطوق وتطبيقاتها 2 
القرآن الكريم: وافع وطموح 


د.يحيى محمد الحاج “ 


yelhadj@ariscom.org 


أستاذ مساعد 2 جامعة الإمام محمد بن سعود الإسلامية 

حصل على درجة البكالوريوس B‏ علوم الحاسب من جامعة القاضي عياض بالمغرب سنة ٠۹۹١‏ 
ثم نال درجة الماجستير والدكتوراه 2 المعالجة المتوازية والموزعة ضمن برامج أوربية مشتركة .2 
سنتي 1998 و٠٠٠۲.‏ التحق بهيئة التدريس بقسم علوم الحاسب 2 كلية علوم الحاسب والمعلومات 
بجامعة الإمام بالمملكة العربية السعودية سنة 22٠١"‏ وتم تكليفه مؤخرا بالعمل 2 مركز ا لحوسبة 
ذالمجالاتالشرعية والعربية الذي أنشئ حديثا بالجامعة والمجموعة البحثية حول الحوسبة 2 


المجالات العربية والشرعية .ARISCOM‏ 
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ملخص 


تمثل هذه الورقة بحثا استطلاعيا حول تقنيات التعرف الآلي على الكلام 
المنطوق وواقع استخداماتها 4 مجال القرآن الكريم. يتم 2 البداية تقديم 
عرض مفصل حول تقنيات التعرف الآلي على ca MSIE‏ مجالات تطبيقها بشكل 
عام ومفاهيمها الأساسية وأدواتها التقنية وطرق بناء تطبيقاتها. ومن ثم يتم 
استعراض أهم الأعمال والجهود المبذولة 2 سبيل تطويع هذه التقنيات لخدمة 
القرآن الكريم كرصد للواقع الفعلي لمدى الإستفادة منها 2 مجال تعلم وتعليم 
القرآن الكريم. وتختم الورقة بلفت أنظار المهتمين والمعنيين إلى ضرورة تكثيف 
الجهود وتضافرها للإستفادة من هذه التقنيات واستغلالها بشكل أمثل لتسهيل 
تعلم وتعليم القرآن الكريم؛ وتشير الورقة إلى نماذجين يمكن أن يكونا نواه لأنظمة 
فعلية وبيئات تفاعلية للتعلم الذاتي للقرآن الكريم. 
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مقدمة 

يعتبر مجال التعرف الآلي على الأصوات المنطوقة أو ما يعرف أختصارا 
بالتعرف الآلي على الكلام من أهم وأقدم المجالات الحاسوبية التي حظيت بجهود 
بحثية معتبرة لكون تواصل الإنسان مع الآلة بلغته الطبيعية يمثل حلمًا طالما قد 
راوده [Y]‏ ونظرًا لأهمية الكلام لدى الإنسان والأريحية 2 التعاطي معه» تزايدت 
بشكل ملحوظ الاستخد امات المتعددة لتقنيات التعرف الآلي على الكلام وظهرت 
تطبيقاته -2 مجالات شتىء منها التحكم عن بعد باستخدام الهاتف. ومساعدة 
المعوقين وذوي الاحتياجات الخاصة؛ والتعرف على المتحدث؛ والتعرف على اللغة, 
وإدخال النصوص. والأرشفة ثم البحث والاسترجاع ]1[ وقد 2-035 السنوات 
الأخيرة توجهات جديدة تسعى إلى تطبيق هذه التقنيات S‏ الأغراض التعليمية 
وبالذات 2 تعليم القراءة وتصحيح النطق. وبالرغم من حداثة هذه التوجهات 
البحثية؛ إلا إنها حظيت باهتمام كبير ومتسارع 4 لغات عدة؛ حيث أطلقت مشاريع 
عملاقة 2 بلدان مختلفة: نذكر من بينها: مشروعي v-Y] "yeu!‏ و "ead‏ 
[غ-5] لتطوير برمجيات للتعرف على قراءة الأطفال وتحسين مستواهاء ومشروع 
[v-3] mm‏ لتطوير تقنيات للتعرف على الكلام المنطوق بشكل يتناسب مع 
التطبيقات التعليمية dall s‏ 3 ومشروع "القارئ [A] acus jl‏ لمساعدة الأطفال 
والكبار على تعلم القراءةء ومشروع "القارئ المساعد" [A]‏ لمساعدة الطلاب على 
تحسين قدراتهم على Sel pall‏ الصحيحة وزيادة رصيدهم اللفوي ورفع مستوى 
fee‏ 

أما على مستوى اللغة العربية فالجهود لا تزال محدودة. ولم تنتشر بعد 
الاستخدامات الفعلية لتقنيات التعرف الآلي على الكلام 4 تعليم اللغة العربية 
بشكل عام سواء للناطقين بها أولفير الناطقين بها على غرار ما يوجد CZ‏ 
أخرى. ولعل من أهم المجالات التطبيقية لتقنيات التعرف الآلي على الكلام 


Y£4 


العربي المنطوق؛ تعليم النظام الصوتي للعربية الفصحى لمساعدة المسلمين (عربًا 
وعجما) على تلاوة القرآن بشكل صحيح سواء لحفظه أو لأداء المناسك والشعائر 
الإسلامية. فالقرآن هو معجزة الإسلام الخالدة» أنزله all‏ ليتلى ويتدبر ويعمل 
به؛ ونبه الرسول صلى alll‏ عليه وسلم على فضله وفضل تعلمه وتعليمهء حيث قال 
eS pd‏ من تعلم القرآن وعلمه". وقد ظهر الحرص على حفظ القرآن الكريم 
وضبط تلاوته منذ نزوله على الرسول صلى all‏ عليه وسلم [ DY‏ حيث تولا 
الصحابة رضوان alll‏ عليهم مهمة حفظه وتحفيظه لجيل التابعين رضي الله عنهم, 
و انتقل متواترًا عبر الآجيال يتعلمه كل جيل مشافهة عن الجيل السابق. وقد ظهرت 
الدراسات المتعلقة بوصف أصوات العربية من حيث مخارجها وطرق إخراجها 2 
القرن الثاني الهجري على يد الخليل بن أحمد الفراهيدي وتلميذه سيبويه [١١]؛‏ 
وتبع ذلك 2 القرن الثالث وما بعده تقعيد علم التجويد وتدوينه كعلم يهتم بتلاوة 
القرآن الكريم التلاوة الصحيحة ] [Y‏ وقد أبدع سيبويه ومن تبعه من علماء اللغة 
2 وضع توصيفات دقيقة لأصوات Ay pall‏ وقد سبقوا غيرهم من الأمم ب2 ذلك 
الوقت. ومع التطور التقني الذي شهده العالم ظهرت أجهزة ومعدات تقنية مكنت 
من معرفة الجهاز الصوتي لدى الإنسان وما يصدر dic‏ من موجات صوتية أثناء 
الكلام واستفادت منها لغات أخرى؛ ولم يتوقف الأمر عند هذا الحد بل برزت 
تقنيات حاسوبية تسعى إلى تحديد الصوت المنطوق والتأكد من سلامة نطقه؛ إلا 
إن هذه الوسائل التقنية لم تستغل بما يكفي لخدمة اللغة العربية بشكل عام والقرآن 
pal dea es‏ 

نهدف 4 هذا البحث إلى استعراض تقنيات التعرف الآلي على الكلام 
لتقريبها من القارئ العربي» واستطلاع تطبيقاتها الحالية 2 القرآن الكريم؛ 
ونوجه الراغب 2 الاستزادة من المعلومات المتعلقة بالأجهزة الصوتية الحديثة 
وكيفية الإفادة منها 2 ضبط مخارج الحروف وتعلم أحكام التجويد» نوجهه إلى 
بحث الدكتورين منصور الغامدي وعبد الله الأنصاري [ir]‏ المقدم ب2 ندوة القرآن 
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الكريم والتقنيات المعاصرة ' تقنية المعلومات" بمجمع الملك فهد لطباعة المصحف 
الشريف سنة ۹٠٠۲ء‏ وكذلك بحث الدكتور غانم قدوري ١5[‏ ] وأحمد راغب [vo]‏ 


تضم هذه الورقة - غير المقدمة والخاتمة - قسمين أساسيين: قسمًا نستعرض 
فيه بنوع من التفصيل الخلفية العلمية لتقنيات التعرف الآلي على الكلام وأدواته 
ومنهجية بناء تطبيقاتهء 2 حين نقدم # القسم الآخر أهم الأعمال التي اهتمت 
باستخدام تقنيات التعرف الآلي على الكلام 2 مجال القرآن الكريم كرصد للواقع 
الفعلي لاستغلال هذه التقنيات 2 خدمة القرآن. 


تقنيات التعرف الآلي على الكلام وأدواتها 

لقد أفضت الجهود البحثية 2 مجال التعرف الآلي على الكلام إلى نجاحات 
معتبرة وتجسدت بشكل كبير 2 العقود الثلاثة الأخيرة مع استخدام الطرق 
الإحصائية. وخصوصًا ما يعتمد منها على نماذج مركوف الخفية Hidden Mar-)‏ 
(kov Models - HMM‏ 16-171 ]. وسنستعرضن بتفصيلء 2 الأجزاء التالية 
منهجية التعاطي مع تقنيات التعرف الآلي على الكلام المعتمد على هذا النوع من 
النمذجة. 
منهج بناء أنظمة التعرف الآلي على الكلام المعتمد على نماذج ماركوف الخفية 

يعتمد مبدأ استخدام نماذج مركوف الخفية (HMMs)‏ ]34[ 2 التعرف 
الآلي على c SII‏ على تقسيم مفردات المعجم اللغوي المراد التعرف عليها إلى 
سلسلة من الوحدات الصوتية التي يتم تمثيل كل واحدة منها بنموذج صوتي 
(Acoustic Model)‏ مكون من مقاطع متوالية «(Sequence of States)‏ حيث 
يمثل كل مقطع chy oll‏ قسما متجانسا gl)‏ أجزاء متجانسة) من BLEW‏ 
الصوتية للصوت الممثل. 
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البنية النمطية لنماذج ماركوف الخفية 2 تمثيل الأصوات المنطوقة 

تبين أغلب الدراسات الحديثة أنه يكفي استخدام نماذج مركوف خفية 
ذوات ثلاث مقاطع رئيسية (Three Emitting States)‏ لتمثيل الأصوات 2 بنيتها 
الأساسية TVD‏ بحيث يمثل المقطعان الأول والأخير الأجزاء الانتقالية مع الوحدات 
الصوتية المجاورة 2 حين يمثل المقطع الأوسط الجزء الثابت والمستقر من الصوت 
نفسه؛ الشكل ١‏ يقدم تمثيلا تصوريًا لهذا النموذج. 


3 


الشكل :١‏ البنية الأساسية لتمثيل الوحدات الصوتية 

و2 هذا النموذجء يلاحظ أن الأجزاء المتشابهة gh)‏ المتجانسة) 2 بداية 
الإشارة الصوتية يتم تثبيتها على المقطع الأول 2 النموذج من خلال السهم 
الذي يخرج من المقطع ويعود إليه؛ ومع التقدم الزمني 2 الإشارة الصوتية وتغير 
خصائصها يتم الإنتقال إلى المقطع الثاني ( الأوسط) الذي بدوره تثبت عليه 
الأجزاء المتشابهة من الإشارة الممثلة للقسم الثابت والمستقر من الصوت عبر 
السهم الذي يخرج من المقطع ويعود إليه؛ بعد ذلك يتم الإنتقال إلى المقطع الثالث 
لتثبت عليه الأجزاء المتبقية من الإشارة الصوتية كذلك بواسطة السهم الذي يخرج 
من المقطع ويعود إليه. 

da ual;‏ عمليات مطابقة أجزاء الإشارة على مقاطع النموذج الثلاثةء يتم 
استخدام توزيعات احتمالية ) (Probability Distributions-PDs‏ 38,5 بالمقاطع 
لتمثيل الجزء الصوتي المصاحب. ( أنظر الشكل (Y‏ 
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PD,(.)  PD;()  PD&() 
البنية الأساسية لتمثيل الوحدات الصوتية مع التوزيعات الاحتمالية‎ Y الشكل‎ 
ومن الناحية الإجراءية. يضاف عادة إلى المقاطع الثلاثة (المذكورة آنفا)‎ 
de; JJ وذلك‎ A agi مقطعان استشنائيان» واحد لتمثيل البداية والآخر لتمثيل‎ 


| 


PD,(.) PD.)  PD&() 


الشكل ": البنية الإجملية لتمثيل الوحدات الصوتية 


وبناء على ما سبق فإن كل وحدة صوتية تمثل بنموذج مركوف خفي (HMM)‏ 
(انظر الشكل )٤‏ يرمز له ب (11,4,8) AT‏ 

dS sr J‏ تمثل توزيع القيم الاحتمالات الأولية لمقاطع التموذج» 
وهي دائمًا تساوي E‏ عند المقطع الذي يمثل مدخل النموذج ومنطلقه ) 
"ya ».( 2, =1‏ لبفية sual 52528 N Ud (77, 70,19 2,...,N ) ell‏ 


المقاطع 2 النموذج. 


la, URN 2‏ = 4 : مصفوفة تضم قيمًا عددية تمثل احتمالات الانتقال 
الممكنة والمسموح بها بين مقاطع النموذجء وتحدد الهيكل أو البنية العامة للنموذج 
(Model Topology)‏ . 

ت. bO)‏ = 8 : مجموعة التوزيعات الاحتمالية المرفقة بمقاطع 
النموذج؛ حيث يرمز (.) ,0 للتوزيع الاحتمالي المرفق بالمقطع رقم 1¡ 4 النموذج. 
ومن خلال هذه التوزيعات يتم التعرف على الأجزاء الصوتية أثناء مطابقة الإشارة 
على مقاطع النموذج. 

نشير إلى أن التوزيعات الاحتمالية (.) ,0 dale‏ ما تكون من نوع Gauss-)‏ 
(ian‏ وقد تكون هذه التوزيعات منفردة بواقع واحد لكل مقطع Single Gauss-)‏ 
(ian‏ بالنسبة للتطبيقات البسيطة:؛ أو خليط من التوزيعات Gaussian Mixture)‏ 
(Models - GMMs‏ 2 كل مقطع من مقاطع النموذج بالنسبة للتطبيقات الأكثر 
تعقيدا وذلك لزيادة القدرة على تمييز الخصائص الصوتية وضبطها بشكل أدق. 


9 d22 f) 
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الشكل ؛ : بنية نمطية لنموذج ماركوف ذو ثلاث مقاطع أساسية 
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نسخ متعددة للوحدات الصوتية التي تتم نمذجتها لتتمكن التوزيعات الاحتمالية من 
تجميع الخصائص الصوتية المختلفة حسب النطق. ومن أجل ذلك لا بد من وجود 
قاعدة بيانات صوتية معدة ilu‏ وفقا لمواصفات ومميزات مناسبة. 


استخلاص الخصائص الصوتية من الإشارات لتدريب النماذج 

يبدأ التحضير لعملية التدريب» بمعالجة الإشارات الصوتية 2 قاعدة البيانات 
واستخراج الخصائص منها (Feature Extraction)‏ ؛ وهو ما يقتضي تقسيم 
الإشارة إلى مقاطع أو نوافذ زمنية قصيرة ( تتراوح عادة بين ٠١‏ و١٠‏ ملسكند ) يتم 
تمثيل كل منها بمتجهات تضم مجموعة من الخصائص المميزة للمقطع. وهناك 
أنواع من الخصائص وطرق متعددة لاستخلاصهاء لكن أكثرها استخدامًا وشيوعًا 
2 مجال التعرف الآلي على الكلام هوما يعرف ب Mel Frequency) MFCC‏ 
Cepstral Coefficients‏ ( . وللتحضير لاستخلاص هذه الخصائص. لا بد من 
تحويل الإشارة من صيغتها العادية على شكل موجة إلى صيغة رقمية قابلة للتخزين 
والمعالجة pail)‏ الشكل 0( وهنا ينبغي تحديد معدل العينات (Sampling Rate)‏ 
التي تقيس عدد العينات 233g SLM‏ الثانية من الإشارة الصوتية إضافة إلى سعة 
تمثيلها (عدد البتات المستخدمة). وبما أن أغلب المعلومات 2 الكلام البشري 
موجودة 4 ترددات أقل من عشرة آلاف هرتزء فإن عشرين Call‏ عينة 2 الثانية 
كافية للتعرف على الكلام. فالكلام المسجل مثلا بواسطة الهاتف لا يحتاج إلا إلى 


أربعة آلاف هرتزء أى أن ثمانية آلاف عينة 2 الثانية كافية له. 
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Amplitude 
[m] 


Sample, n i x 107‏ 
الشكل 0: إشارة صوتية مقسمة إلى عينات 


وتمر عملية استخلاص الخصائص أو المؤثرات الصوتية بعدة مراحل كما 
يبينها الشكل ۷. وتبدأ هذه المراحل بمعالجة الترددات العالية والمنخفضة لتكون 2 
مستوى متناسب ) (preemphasis‏ ( الشكل (V‏ 


——— Original 
ده‎ Preemphasized 


Ampltude 


Sample, n x 10 


الشكل 5 : معالجة الترددات العالية والمنخفضة 
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يتم بعد ذلك تقسيم الإشارة إلى نوافذ زمنية صغيرة يتم تمثيل كل جزء منها 
بمتجه يتكون من مجموعة من القيم (عادة ما تكون Y^‏ قيمة) تمثل الإثنا عشر 
عنصرًا الأولى من قيم MFCC‏ مضافا إليها قيمة الطاقة للنافذة الزمنية لتمثيل 
الخصائص الثابتة 2 المقطع الصوتي» ثم يضاف إلى ذلك قيمة الاشتقاق الأول 
والثاني لهذه العناصر لتمثيل الخصائص الديناميكية للمقطع. نشير هنا إلى أن 
عدد القيم 2 المتجه الذي يمثل المقطع الصوتي يمكن أن يكون أقل أو أكثر حسب 
أنواع التطبيقات: إلا إن القيم المذكورة هنا YA)‏ قيمة) تعتبر متوسطة وهي كثيرة 
الاستخدام 2 تطبيقات التعرف الآلي على الكلام. 


speech س‎ 2MFCC 
sone 2 AMFCC 
tn vnd zu لاما‎ FCC 
energy 
1 benergy 
M 1 energy 
margy MM energy 'eitute 


الشكل V‏ : خطوات استخلاص الخصاتص الصوتية (مستقاه من ] [( 
تدريب النماذج الصوتية 
يتم التدريب بإدخال الخصائص الصوتية المستخرجة من الإشارات الصوتية 
إلى النماذج بشكل تكراري حتى تصل النماذج إلى القيم المثلى (Optimal Values)‏ . 
وهذا يعني أننا نقوم بتغيير قيم النموذج الصوتي التي رأيناها سابقاء أي مجموع 
قيم مصفوفة الانتقال بين مقاطع النموذج (ar, eem‏ وقيم التوزيعات الاحتمالية 
(B,()) cy‏ المرفقة بمقاطع النموذج. يتم ذلك من خلال قاعدة بيانات التدريب 
التي يفترض أن تضم مجموعة من التكرارات ( نطق متكرر) لكل وحدة صوتية. 
ويمكن أن يتم التدريب بطريقتين» تدريب منفصل للوحدات الصوتية يعرف ب 
(Isolated-Unit Training)‏ أو تدريب مدمج .(Embedded-Unit Training)‏ 
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فالنوع الأول يقتضي أن يكون كل ملف صوتي ب قاعدة بيانات التدريب مقسمًا 
ومرمرًا بحيث تحدد البداية والنهاية الزمنية لكل وحدة صوتية فيه؛ ويتم تجميع 
الأجزاء الخاصة بكل وحدة صوتية من مختلف الملفات وتستخدم مع بعض لتدريب 
النموذج الذي يمثل تلك الوحدة الصوتية. وتعتمد جودة التدريب هنا على دقة 
تحديد الحدود الزمنية للأصوات. ونظرًا لما يتطلبه ذلك من وقت وجهد فإنه قد 
يكون من الصعب تجهيز قواعد بيانات صوتية كبيرة وفقا لهذه الطريقة وبالتالي 
يتم اللجوء إلى الطريقة الثانية التي تعرف بالتدريب المدمج. وفيها يتم الاكتفاء 
بتحديد قائمة الوحدات الصوتية لكل ملف صوتي ثم يترك للخوارزميات مهمة 
تقسيم الإشارة وتحديد الحدود الزمنية بشكل آلي من خلال مطابقة الإشارة 
الصوتية على تلك القائمة. ومع التقدم 4 مراحل التدريب تعمل الخوارزميات على 
ضبط تلك الحدود بشكل أفضل تدريجيًا حتى تصل إلى الأمثل. ويبقى وجود بيانات 
صوتية مقسمة Lila‏ على مستوى الوحدات أمرًا بالغ الأهمية 2 تسريع التدريب 
وضبطه بشكل أفضلء إضافة إلى أهميته 2 عدة أنواع من التطبيقات. 


وقبل الشروع 2 التدريب بأي من الطريقتينء يتم عادة تحديد قيم ابتدائية 
للنموذج تكون منطلقا له؛ ويتم ذلك 2 الطريقة الأولى بتقسيم الإشارة بشكل 
متساو بين مقاطع النموذج ثم يتم استخدام إحدى صور الخوارزمية المعروفة باسم 
صاحبها [۲٠-۲١ ] Viterbi‏ لتحديد التسلسل الأمثل؛ وخوارزمية Viterbi‏ تعتمد 
على مبدء البرمجة الديناميكيةء وقد ظهرت لأول ja‏ 2.3 منتصف الستينيات من 
القرن الماضي. أما 2 الطريقة الثانية فيتم حساب متوسط وانحراف عام على 
كل بيانات التدريب ويتم استخدامهما كقيم ابتدائية لكل التوزيعات الاحتمالية 2 
النموذج (وهذا النمط يعرف ب" الإنطلاقة المنبسطة أو (Flat Start "à aiat‏ 
وبالنسبة لاحتمالات الانتقال بين مقاطع النموذج فيكفي أن توضع بشكل متساو 
2 البداية على أن تتغير أثناء التدريب. بعد تلك التحضيرات الأولية يتم التدريب 
الفعلي باستخدام خوارزمية تعرف هي الأخرى بأسماء أصحابها Baum-Weltch‏ 
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[vv]‏ وتعمل على حساب القيم المثلى لنماذج ماركوف الخفية بإدخال الخصائص 
الصوتية بشكل تكراري. 
اختبار وتجريب النماذج 

بعد الانتهاء من تدريب النماذج الصوتيةء يتم عادة العمل على قياس مدى 
L gie ed‏ نين JR‏ عرض عات Agua‏ عليها Le dian. faena‏ بطق ف gal‏ 
مدى صحته. ويحتاج هذا الأمرإلى وضع نموذج لغوي Ce model)‏ يحدد 
التتابعات المسموح بها حسب نوع التطبيق؛ فقد يكون التطبيق عبارة عن كلمات أو 
وحدات منفردة يتم نطق كل منها على حدة والتعرف عليه بشكل منفصل ( ويعرف 
هذا النوع ب Isolated-Words Recognition‏ أي التعرف على GLAS‏ منفردة) »2 
ويكون النموذج اللغوي 2 هذه الحالة بسيطا؛ وقد يكون التطبيق عبارة عن جمل 
تضم سلسلة من الكلمات وفقا لقواعد يتم تحديدها وتشكل طبيعة النموذج اللغوي 
(ويعرف هذا النوع ب Connected- Words Recognition‏ أي التعرف على كلمات 
متصلة أو مترابطة)؛ وقد يكون التطبيق يسعى إلى التعرف الآلي على الكلام 2 
صيغته الطبيعية (وهوما يعرف ب Continuous Speech Recognition‏ أي التعرف 
على الكلام المتواصل) « ويبنى النموذج اللغوي 2 هذه الحالة وفقا للقواعد اللغوية 
التي تحكم بنية الجملة. ويستخدم الجانب النصي 4 ذخيرة التدريب لحساب 
احتمالات التتابعات الممكنة Uns‏ لنماذج إحصائية تعرف ب N-Gram‏ . ويلعب 
النموذج اللغوي دورًا مهما 2 تحسين نسبة التعرف GY‏ يساعد على تحديد الاختيار 
الأمثل من بين الاحتمالات الممكنة بناء على التسلسلات التي تدرب عليها. 

ضفي مرحلة التعرف يتم أولا بناء فضاء للبحث (Search Graph)‏ على شكل 
شبكة تربط بين الوحدات الصوتية وفقا لما يحدده النموذج اللغوي؛ فإذا كان 
النموذج اللغوي معرفًا على مستوى الجملء فإن الشبكة تبنى على ثلاثة مستويات. 
الأول يمشل كيفية توالي الكلمات 2 الجملة؛ أما الثاني ففيه يتم تعويض كل كلمة 
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بحالاتها النطقية E‏ لما يحدده القاموس النطقي «(Pronunciation Lexicon)‏ 
و المستوى الثالث يتم تعويض كل 9 .2-3 القاموس النطقي بالنموذج الصوتي 
الذي يمثلها (انظر الشكل Lal (A‏ إن كان النموذج اللغوي LÀ aa‏ على مستوى 
الوحدات اللغوية الأصغر من الكلمة؛ فيتم تعويض كل وحدة بنموذ جها الصوتي 
مباشرة للحصول على الشبكة. 


Ww W 
0-1 ^ n ` 
d `N 
, s 


Word 


^ 


d ` level 
^ 


الشكل 8: توليد فضاء أو شبكة Cod‏ 2 مرحلة التعرف 
يتم البحث 2 هذه الشبكة - أيضًا- باستخدام خوارزمية البرمجة الديناميكية 
Viterbi‏ التي تعمل على إيجاد أفضل مسار 2 A Sa‏ وهو عبارة عن سلسلة من 
قياس أداء أنظمة التعرف 
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Viterbi‏ مع ما تم نطقه أصلاء حيث ينبغي أن تكون هناك عينة مجهزة سلقًا 
وموضوعة 2 صيغة مماثلة لما يخرجه نظام التعرف؛ وتعرف هذه العينة بعينة 
o Las Yl‏ وهي جزء من قاعدة البيانات الصوتية التي أشرنا إلى ضرورة وجودها 
خلال الحديث عن التدريب. 


وكوحدة لقيامس الأداء؛ يتم حساب عدد الكلمات أو الوحدات الصوتية التي 
تم التعرف عليها بشكل صحيح ( دون النظر إلى مكانها وترتيبها حسب المدخلات) 
وتقسم على عدد الكلمات المدخلة؛ ويعرف هذا المقيامس ب Word Recognition‏ 
Rate‏ أي نسبة التعرف على الكلمات. ويوجد مقياس أكثر صرامة لقياس دقة 
نظام التعرف ( يسمى "Recognition Accuracy‏ أي دقة التعرف). حيث تحتسب 
فيه نسب الاستبدال والإضافة والحذف, بمعنا أن الكلمات التي يتم التعرف عليها 
بشكل صحيح لا تحسب إلا إذا كانت 2 مكانها المناسب حسب ترتيب المدخلات. 


أدوات بناء أنظمة التعرف الآلي على الكلام 
يعتبر بناء أنظمة التعرف الآلي على الكلام بشكل عام أمرًا صعبًا لكونه 
يحتاج إلى جهود كبيرة وتخصصات مختلفة ) صوتية ولغوية وحاسوبية وغيرها) . 
ولتسهيل وتسريع بناء تلك الأنظمة تم التوجه 2 الأوساط الأكاديمية إلى إنشاء 
بيئات تطويرية توفر جملة من الأدوات الأساسية يمكن للمطور الاستعانة بها بناء 
تطبيقاته المختلفة. ولعل من أشهر تلك البيئات وأكثرها استخد اما نظام Sphinx‏ 
[vv]‏ وحزمة أدوات [ys ] (Hidden Markov Model Toolkit) HTK‏ اللذان 
يمكنان من بناء أنظمة التعرف الآلي على الكلام بمختلف أنواعهاء وذلك من حيث: 
.١‏ الحجم, أي عدد الوحدات التي يمكن للنظام التعرف عليها vocabu-"‏ 
lary‏ "؛ ويمكن أن يكون هذا العدد صغيرا أو متوسطا أو كبيراء 
Y‏ طريقة النطقء أي كيفية التعاطي مع المدخلات 4 النظام؛ هل يتعامل النظام 
مع كلمات أو وحدات منفصلة:؛ al‏ يتعامل مع كلمات متصلة تشكل جملا قصيرة 
مبنية وفقا لقواعد محددة؛ آم يتعاطى مع الكلام الطبيعي 2 مجملهء 


YA 


-Y‏ عدد المستخدمين» أي عدد المتحدثين الذين يمكن للنظام التعرف عليهم. 
فقد يكون للنظام مستخدما واحدا تدرب على صوته ولا يتعرف إلا edale‏ 
ويدعى النظام -2 هذه الحالة speaker dependent"‏ "+ وقد يكون النظام 
قادرا على التعرف على عدد معين من المستخدمين تدرب على أصواتهم. 
ويدعى # هذه الحالة " multi-speakers‏ ؛ وقد يكون النظام مستقلا 
عن المتحدث» بمعنى أنه قادر على التعرف على صوت أي متحدث لكونه 
تدرب على عد كبير من المتحدثين: ويدعى 2 هذه الحالة ' speaker in-‏ 


. " dependent 


e‏ تطوير نظام Sphinx‏ .2 جامعة كارنيجي ميلون بالولايات المتحدة 
الأمريكيةء وهويستخدم نماذج ماركوف الخفية 2 نمذجة الأصوات ويضم قسمين 


طرق مختلفة 2 التعرف آخرها [Y0] Sphinx4‏ الذي تم تطويره باستخدام لغة 
الجافا وهو يحتوي على ثلاثة أجزاء أساسية أساسية هي: 


). الواجهة ) :(FrontEnd‏ تقوم باستقيال الإشارة وتحويلها cll‏ مجموعة 
من الخصائص الرقمية وفقا لآليات استخلاص الخصائص التي 
معلومات القاموس اللفظي الذي يضم الحالات النطقية الممكنة والنماذج 
الصوتية لتكوين مجال وشبكة البحث. 

.Y‏ المتعرف :(Decoder)‏ يقوم باستخدام الخصائص الرقمية ومجال 
البحث الذي تم إنشاؤه لأداء عملية التعرف الفعلية. 


Lil‏ حزمة أدوات HTK‏ التي تعتبر الأشهر والأكثر انتشاراء فقد تم تطويرها 
2 جامعة كامبريدج ببريطانيا. وفيها يتم تمثيل كل وحدة صوتية باستخدام نموذج 


۲ 
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ماركوف خفي واحد» وكل كلمة كسلسلة من النماذج. ويتكون HTK‏ من أربعة أجزاء 


i an رئيسية‎ 


.١‏ أدوات تجهيز البيانات: وتقوم باستقبال الإشارة الصوتية ومعالجتها 
ثم استخلاص الخصائص الرقمية منها Liag‏ لأحدى الصيغ المناسبة 
LPC MFCC)‏ إلخ.)؛ كما تقوم هذه الأدوات بتجهيز البيانات للمرحلة 
المقبلة. 

Y‏ أدوات التدريب: وتمكن من تعريف الهيكل العام للنماذج الصوتية 
وتحديد قيمها الابتدائية ثم تدريبها بالآلية والخوارزميات التي ذ كرناها 
ل4# الجزء السابق. 

؟. أدوات التعرف: وتمكن من استخدام النماذج الصوتية والنموذج اللغوي 
والقاموس النطقي مع خوارزمية Viterbi‏ لمحاولة التعرف على ما تم 

؛. أدوات التحليل: تستخدم لتحليل النتائج وتقييم الأداء. 

ولعل هذين النظامين يعتبران من أنضج الوسائل المعتمدة على الطرق الإحصائية 

والمستخدمة اليوم 2 بناء أنظمة التعرف الآلي على الكلام. ولا توجد حسب علمنا 
دراسات مقارنة تبين أهمية واحد على الآخر حسب نوع التطبيق المراد عمله. 


واقع استخدام تقنيات التعرف الآلي على الكلام 2 خدمة القرآن الكريم 

إن الأعمال البحثية 2 مجال التعرف الآلي على الكلام العربي بشكل عام لا 
تزال محدودة إذا ما قورنت بما تم 4 اللغات الأخرى كالإنكليزية مثلاء على الرغم 
من أن اللغة العربية تصنف من حيث عدد المتحدثين بها 2 المرتبة الثانية عالميًا 
بأكثر من EYY‏ مليون متحدث 2 حين SE‏ اللغة الإنكليزية 2 المرتبة الرابعة وذلك 
وفقا لما أوردته موسوعة أنكرتا الشهيرة وما جاء .2 هذه الإحصائية Lv]‏ ولعل 
من بين الأسباب التي قد تكون وراء ذلك النقص غياب البنى التحتية اللازمة لبناء 


yur 


أنظمة التعرف الآلي على الكلام» سواء ما تعلق منها بالصوتيات العربية وقواعد 
بياناتها [vv]‏ أو تقنيات معالجتها كلغة طبيعية [۲۸[ أو غير ذلك. ومع هذا فقد 
بدأت تلوح بوادر لتزايد الاهتمام 2 السنوات الأخيرة؛ حيث انطلقت أبحاث 


متعددة» نذكر من بينها [v£-vv]‏ 


أما الأعمال التي اهتمت بتوظيف تقنيات التعرف الآلي على الكلام لخدمة 
القرآن الكريم فهي قليلة على حد علمناء وبعضها عبارة عن محاولات متواضعة لا 
تعكس أهمية القرآن الكريم 2 حياة المسلمين. 


ومن بين هذه الأعمال التي اهتمت بتوظيف تقنيات التعرف الآلي على الكلام 
لخدمة القرآن الكريم» ما ald‏ به مرتجى وزملاؤه 2 جامعة عمان» حيث سعوا 
لبناء نظام للتعرف الآلي على التلاوة القرآنية مرتبط بالمتحدث Speaker-De-)‏ 
4 واستخدموا 2 ذلك نماذج ماركوف الخفية لتمثيل الوحدات الصوتية 
حسب السياق [Yo] (tri-phone HMM model)‏ وقد استخدموا Aine‏ من YO‏ آية 
للتدريب والاختبار. ووصلت نسبة التعرف عندهم إلى A‏ حيث اعتبروها مناسبة 
ومرضية جدا إذا ما قورنت مع قلة الآيات المستخدمة. وقد قام نفس Ga pall‏ 
لاحقاء بتطوير النظام ليصبح مستقلا عن المتحدث (Speaker-Independent)‏ 
واستخدموا تقنية (Maximum Likelihood Linear Regression) MLLR‏ 
لملاءمة النموذج [vi]‏ وقد أخذوا الجزء الأخير من القرآن الكريم (جزء ee"‏ ( 
بتلاوات خمسة قراء للتدريب والاختبار ولكنهم لم يحددوا ما الحجم المستخدم 2 
التدريب والاختبار كل على حدة. كما أنهم لم يبينوا ما إذا كان الاختبار وقع على 
جزء مما استخدم 2 التدريب SY al‏ ولم يذكروا كذلك ما إذا كانوا قد استخدموا 
LÈ dga‏ لغويًا آم SY‏ مع أن لكل ذلك علاقة وطيدة بأداء النظام. وقد وصلوا إلى 
نتائج تتراوح بين 1۸ A09‏ حسب القارئ» أي بمعدل حوالي VV‏ وأوردوا 2 
بحثهم أن هذه النتائج تم الحصول عليها باستخدام نماذج ماركوف مكونة من ٠١‏ 
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مقطع لكل واحد على حدة» ونظرًا لذلك فقد ذكروا أن مرحلة التعرف .3 نظامهم 
تعتبر بطيئة. واستخدموا 2 بناء تلك الأنظمة أدوات HTK‏ 

وقد أهتم طبال وزملاؤه 4 الجامعة اللبنانية باكتشاف الآيات القرآنية ب 
الملفات الصوتية بغية تحديدها واستخلاصها [vv]‏ وقد استخدموا نظام Sphinx‏ 
4 ذلك» ولكنهم اقتصروا فقط على سورة الإخلاص بمقرئين متعددين ) عشرين 
قاركا) ولم يبينوا ما إذا كان الاختبارتم على نفس التلاوات التي استخدمت 2 
التدريب. وعلى اعتبار أنهم يسعون فق da‏ إلى تمييز الآيات القرآنية عن غيرهاء 
فقد استخدموا نموذجا لغويًا للآيات الموجودة # سورة الإخلاص. ويذكرون أنهم 
قاموا بتجارب على نوعين من التلاوات» تلاوات مرتلة وتلاوات مجودة» وحصلوا 2 
المعدل على نسبة #457 النوع الأول و٠5‏ 2 النوع الثاني مع العلم أنهم استخدموا 
٠‏ قارئا ك# كل نوع. وحسبما أوردوا فإن التلاوات المرتلة أسرع من تلك المجودة 
وأقل تركيزا منها على استيفاء المدد الزمنية للأصوات القرآنية. 

ومن بين الأعمال الهامة 2 المجال» مشروع [A] "J-QAF"‏ الذي أطلقتنه 
الحكومة الماليزية سنة 4١٠٠م‏ ضمن خطتها لتطوير الرأس المال البشري En-"‏ 
"hancing Human Capital‏ ورصدت له مبالغ مالية كبيرة؛ وهو يسعى إلى بناء 
أنظمة حاسوبية لتعليم 3556 القرآن الكريم واللغة العربية والواجبات الدينية ب 
المدارسس الابتدائية إضافة إلى تعلم الخط الملاوي العربي. هذا المشروع يتكون 
من سبع وحدات وأقسام تعليمية (Teaching Modules)‏ بنيت بشكل تدريجي 
حتى نهاية الفترة الرئيسية للمشروع سنة ١٠١5م؛‏ ومن بين هذه الوحدات» 
أقسام لتحفيظ القرآن الكريم وتعليم قواعده التجويدية إضافة إلى قسم لتعليم 
اللغة العربية. والأقسام التي تعنى بالقرآن الكريم 2 هذا المشروع بدأت بتقنيات 
الملتيميديا التفاعلية ] le Y‏ ثم تدرجت eed‏ المراحل الأخيرة إلى إدخال 
تقنيات التعرف الآلي على الكلام حسب ما ذكر [١4]؛‏ ولم as‏ لنا إيجاد تفاصيل 
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حول آليات التعرف الآلي المستخدمة ولا مستوى الدقة الذي وصلت له. وقد قام 
ظريف وزملاؤه مؤخرًا بدراسة لتقييم فاعلية أقسام تعليم القرآن ‏ هذا المشروع 
وقياس أثرها على الطلاب LEY]‏ وأظهرت الدراسة مستوى عاليا 2 ضبط التلاوة 
القرآنية (النطق وأحكام التجويد) وانعكاسات ذلك على تحسن مستويات الطلاب 
2 تعلم اللغة العربية. 

ومن الأعمال البارزة بل مجال توظيف تقنيات التعرف الآلي على الكلام 
لخدمة القرآن الكريم. مشروع حفص ] [v‏ الذي أنتجته الشركة الهندسية 
لتطوير نظم الحاسبات المصرية RDI‏ -2 صورة برنامج كمبيوتر تفاعلي يسعى 
للتمكين من gall‏ الذاتي لأحكام تجويد القرآن الكريم. تقوم الفكرة على محاولة 
cea pal‏ مشاكاة de xl‏ ف اام سق خلال p Lead]‏ اة de 3541 Bg MD Ve‏ 
كو F< ety Is‏ كوو E Epa i o fat‏ رتيل جا GER‏ 
وتوليد تقرير صوتي وكتابي بأخطاء المتعلم ويطلب منه التركيز على تصحيح نطقه 
للمواضيع التي أخطأ فيها ثم إعادة التسميع؛ وهكذا إلى أن يجيز البرنامج قراءة 
المتعلم. وقد نشرت أوراق بحثية تبين الجوانب التقنية لآلية التعرف الآلي المتبعة 2 
تحديد الأخطاء النطقية خلال تلاوة المتعلم للأمثلة المضمنة 2 البرنامج والتي 
تدور حول مواطن وجود أحكام تجويدية [57-44]. وقد ذكر أن تقييم البرنامج 
يتم من خلال قاعدة بيانات تضم تلاوات للاأمثلة التي يتعامل معها البرنامج لقراء 
مجازين؛ حيث قرئ كل مثال عدة مرات» بعضها بشكل صحيح وبعضها أدخلت 
فيه أخطاء نطقية شائعة. ثم طلب من خبراء لغويين تحليل مختلف النطق المسجل 
وكتابته صوتيا مع توصيف للأخطاء ليستخدم كل ذلك 2 آليات التعرف الآلي 
والمقارنات أثناء استخدام البرنامج. وتشير النتائج إلى أن البرناج يعطي القرار 
الصحيح حول القراءة (صحة القراءة أو رسالة تشخيص اللأخطاء ) بنسبة 
٤4‏ وهي نسبة جيدة. وتذكر الشركة أنها تعمل على تحسين أداء البرنامج بشكل 


۲٦ 
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مستمر› وتسعى لتطويره مستقبلا ليتجاوز حدود التعامل مع حالات نطقية محددة 
ويصبح قادرًا على تصحيح التلاوة والاستخدام 2 التحفيظ الآلي بشكل عام. 


ومن ضمن الأعمال البارزة 2 المجال أيضاء مشروع التعليم الآلي للقرآن 
الكريم Lev]‏ الذي مولته مدينة الملك عبدالعزيز للعلوم والتقنيةء والذي سعى إلى 
وضع نموذج لبيئة حاسوبية للتحفيظ الآلي للقرآن الكريم تستخدم فيها تقنيات 
التعرف الآلي على الكلام لمساعدة fo ball‏ على تصحيح نطقه وضبط حفظه. 
وقد ركز المشروع على إعداد بنى تحتية قوية تساعد على الوصول إلى مصحح آلي 
دقيق يمكن استخدامه 2 نظام حلقات افتراضية لتعليم القرآن الكريم. ومن أهم 
البنى التحتية التي ركز عليها المشروع» بناء قاعدة بيانات صوتية لتلاوات قرآنية 
وتجهيزها بشكل مناسب لبناء أنظمة للتعرف الآلي على الأصوات القرآنية بمختلف 
صورها وكذلك أصوات اللغة العربية الفصحى حيث هي لغة القرآن. وقد استخدم 
جزء me‏ كعينة وتم تسجيله بتلاوات عشرة قراء تم اختيارهم من طلاب الجمعية 
الخيرية لتحفيظ القرآن الكريم بالرياض؛ وتمت التلاوات والتسجيلات تحت 
إشراف مختص ب القرآن وعلومه. هذه التلاوات تم تقطيعها وترميزها صوتيا على 
ثلاتة مستويات هي الكلمة والأصوات الأصول (الفونيمات) ثم الأصوات الفروع 
( الآلوفونات) التي تمثل مختلف الحالات النطقية مثل الغنة والقلقلة والتفخيم 
والترقيق ودرجات المدود وغير ذلك من الظواهر الصوتية 2 التلاوة القلاآنية 
[4:-45]؛ والشكل 4 يوضح مستويات التقطيع وآلية الترميز المستخدمة. 


۷ 


الشكل 14 مستويات التقطيع 2 قاعدة البيانات الصوتية للقرآن الكريم 


بالاعتماد على هذه القاعدة الصوتية تم بناء نموذ جين أوليين للتعرف الآلي 
على aly nod!‏ واحد على مستوى الأصوات الأصول ] Lo‏ والآخر على مستوى 
الأصوات الفروع Lor]‏ وقد استخدمت نماذج ماركوف الخفية مع خليط من 
التوزيعات الاحتمالية؛ وتم قياس الأداء من خلال سلسلة من التجارب» تم 2 كل 
واحدة منها الاختبار على عينة من قارئ محدد لم تستخدم 2 التدريب الذي يتم 
على بقية تلاوة هذا القارئ وتلاوات القراء الآخرين: ثم يحسب معدل نسب التعرف 
الإجمالية لكل القراء. وقد وصلت النتائج إلى ZAY‏ بالنسبة للآصوات الأصول و۸۸/ 
بالنسبة للأصوات الفروع؛ وهي نسب جيدة وتوحي بإمكانية الوصول إلى مستويات 
عالية من الدقة 4# التعرف على مختلف الأصوات القرآنية أثناء التلاوة. 


و4 المشروع تم وضع تصور لنظام حلقات إفتراضية ] Lov-ov‏ تحاكي نظام 
التحفيظ الاعتيادي ( الأشكال ٠١‏ و١١).‏ وتسهل التواصل بين المعلمين والمتعلمين 
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المعتمد على تقنيات التعرف الآلي على الكلام مع نظام الحلقات الافتراضية 
خلال آليات التواصل. 


شكل :١١‏ معمارية نظام الحلقات الافتراضية (مستقاه من [57]) 
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وقد اهتم المشروع 2 جانب آخر من جوانبه بدراسة المتشابه اللفظي وتحديد 
مواطنه لأهمية ذلك 2 التحفيظ. وقد استخدمت تقنيات 2 مجال تحليل النصوص 
لقيامس درجة التشابه بين الكلمات ووضع معايير ومقاييمس لترتيب الآيات حسب 
مستويات التشابه ] Loe‏ ووضعت آلية لربط التشابه مع التحفيظ لمساعدة الدارس 
4 إتقان حفظه. كما أضيف 2 نظام التحفيظ مكتبة تضم أهم كتب علوم القرآن 
الأخرى ( الإعراب؛ التفسيرء أسباب النزول) وتم ربطها مع النص القرآني لتسهيل 
الوصول إليها. 

وبشكل عام» فإن مشروع التعليم الآلي للقرآن الكريم وضع أسسًا قوية لبناء 
بيئة حاسوبية متكاملة للتحفيظ الآلي للقرآن ea SIE‏ لكنه يحتاج إلى Age‏ تتبناه 
وتحوله من نموذج بحثي إلى منتج فعلي يخدم الراغبين ‏ حفظ القرآن الكريم 
وتعلم علومه. 
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الخاتمة 


لقد قدمنا هذا البحث بسطا لأشهر تقنيات التعرف الآلي على الكلام 
ومنهجية بناء نظمه وأدواته؛ ثم استعرضنا بنوع من التفصيل واقع استخدام 
هذه التقنيات 2 الوقت الحالي لخدمة القرآن الكريم. ولعل القارئ والمتتبع لهذه 
الأعمال يشعر بأنها Y‏ تزال محدودة وتحتاج إلى تراكم 4 الخبرة وتضافر .2 
og gol‏ لنصل إلى مستوى من التحكم 2 تلك التقنيات يمكن من تطويعها Les‏ 


يتماشى مع خصوصية القرآن الكريم وقدسيته. 


ومن eal‏ وأنضج ما استعرضناه من أعمال مشروع حفص ومشروع التعليم 
الآلي للقرآن الكريم؛ فالأول منتج تجاري والثاني نموذج بحثي. فمشروع حفص 
يركز على تعليم وتطبيق أحكام التجويد من خلال التعامل مع مقاطع محددة من 
القرآن الكريم» حيث يسمع المتعلم تلاوتها بقراءة نموذجية ثم يطلب die‏ محاولة 
محاكاتها ومن ثم يقوم بتوجيهه بناء على مستوى نطقه؛ وهو عمل جاد ومفيد. أما 
مشروع التعليم الآلي للقرآن الكريم فله أهداف أوسع jail s‏ تضم # صلبها Aia‏ 
حاسوبية للتحفيظ الآلي للقرآن الكريم مشتملة على مختلف علومه. وقد وضع فيه 
نموذج لحلقات افتراضية تحاكي نظام حلقات التحفيظ الاعتيادية وتسهل التواصل 
مع المقرئين. وتم وضع تصور لربطه مع نظام التصحيح الآلي للنطق والحفظ ليكون 
ذلك عونا للدارس من Age‏ ومساعدا للمقرئ من جهة أخرى -2 تسريع التعاطي 
مع المتعلمين. والنظام يعتمد 2 رؤيته على عدم إلزام المتعلمين والمعلمين بالتزامن 
أثناء العمل مع إتاحة خيار للتواصل المباشر سواء لتقديم توجيهات وتعليقات عند 
الحاجة أو لإجراء اختبارات لمنح إجازات أو كذلك للقيام بمسابقات قرآنية. 
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الخاتمة 


استقصى هذا الكتاب ما وصلت إليه العديد من المجالات التي يتدخل فيها 
الحاسوب اليوم لخدمة اللغة العربيةء وإن كانت ثمة نتيجة مستخلصة 2 نهايتهء 
فهي أن الحاجة لتطويرها -جميعا- ما زالت كبيرة. فللوهلة الأولى -مثلا- قد 
يبدو أن نظام تمثيل الكتابة العربية الحالي خال من المشكلات. ولكن ما أن نقراً 
البحث الأول من هذا الكتاب حتى نرى ما أخفاه الاعتياد من مشكلات. Big‏ البحث 
الثاني» تتجلى غزارة الأبواب المفتحة للتطوير. غفي o Lal‏ محدود -وهو أساس 
المدونات اللغوية- ومن مكان محدود أيضا -وهو جامعة ليدز- تطل علينا بحوث 
متضافرة تتسع مجالاتها بتعددها وتطورها. أما البحث الثالث فقد استقصى واقع 
قواعد البيانات الرقمية للوثائق الترائية العربية والإسلامية وبين أن الدراسات 
-2 هذا المضمار -حاليا- تنشط على قدم Gling‏ ولكن أكثرها لا يفي بحاجات 
الحوسبة بعد كما أنه لا يتوفر للباحث العربي بلغته. 


واستقصى البحث الرابع من الكتاب كشيرا من الأدوات التي تؤدي وظائف 
تشترك ‏ احتياجها العديد من التطبيقات اللغوية Ay pall‏ وذكر مراجع نظرية 
وعملية لهاء كما أشار إلى بعض جوانب النقص فيها. ثم أخلص البحث الخامس 
لجانب التشكيل الآلي للنصوص du pall‏ وللقواعد التعلمية الإحصائية die‏ تحديدا 
ونسب صحة أدائها من خطتها. 

ثم ناقش البحثان الأخيران تطبيقين يمثلان أبرز الغايات للباحثين ‏ حوسبة 
اللفة العربية؛ وهما: تطبيق الترجمة الآلية من العربية وإليها وتطبيق التعرف على 
قراءة القرآن الكريم منطوقا. وقد خلص الباحثان إلى مسيمس الحاجة إلى بنى 


تحتية ومزيد أدوات وإلى تضافر الجهود المؤسسية والرسمية لدعم ذلك كله. 
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ونحن نأمل — 2 ختام هذا الكتاب من باكورة إصدارات مركز الملك عبد اللّه 
بن عبد العزيز الدولي لخدمة اللغة العربية- أن يتبني هذا المركز الدولي وأمثاله 
المبادرات لتطوير حوسبة اللغة العربية ابتداء من مستوى البنى التحتية ومرورا 
بمستوى الأدوات ووصولا لمستوى التطبيقات. ail‏ نسأل التوفيق لما يحبه ويرضاه. 
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